Автор: Александр Гончаренко
Представим, что мы хотим выбрать лучшую регрессионную модель для неких данных. Для этого мы обучим, например, катбуст и линейную регрессию. А затем проведем кросс-валидацию на 5 фолдах и получим следующие значения mse:
На первый взгляд может показаться, что у линейной регрессии лучшие показатели. Так ли это на самом деле? Если мы вспомним наш предыдущий пост, то нам станет понятно: пока рановато говорить о том, что catboost хуже, ведь мы провалидировали нашу модель не на генеральной совокупности, а лишь на подвыборках. Следовательно, нам нужно привлечь статистику!
Наша нулевая гипотеза будет заключаться в том, что средние метрики моделей одинаковые.
Возьмем критическое значение $α=0.05$, с которым будем сравнивать $P_{value}$ для опровержения/подтверждения гипотезы. А выбор статистического теста будет зависеть от того, является ли распределение метрик нормальным. Кстати, в следующих статьях мы обязательно расскажем вам о возможностях проверки нормального распределения метрик :) При нормальном распределении метрик мы можем использовать параметрические тесты. Они подразумевают, что выборка была получена из распределения с конечным числом параметров. Например, из $N(\alpha, \sigma)$. Отсюда и их название. Большинство параметрических тестов ожидают нормально распределенную выборку, соответственно, и все дальнейшие параметрические тесты (о которых будет сказано далее) для нормальных распределений. Параметрические тесты с большей вероятностью обнаружат различия, если они есть, поэтому лучше использовать их, когда это возможно.
Итак, давайте считать распределение нормальным. Тогда мы можем использовать параметрический Т-тест Стюдента.
Вычислим попарные разницы между моделями (строка diff в табличке выше).
Вычислим среднюю разницу: $M=-0,01$.
Вычислим стандартное отклонение разниц: $sd=0,007$.
Вычислим стандартную ошибку: $SE =\frac{sd}{sqrt(n)}$. $SE=0,003$.
Посчитаем T-статистику: $t=\frac{M}{SE}=-3.33$.
Посчитаем число степеней свободы: $df=n-1 = 4$.
Число степеней свободы — количество значений для расчета статистической величины, которые могут свободно меняться. В нашем случае, зная 4 элемента выборки, мы всегда точно можем определить пятый, зная среднее всех пяти.
Воспользуемся калькулятором T-распределения и получим $Pvalue = 0.029024$.
Сравним Pvalue и α и поймем: мы можем опровергнуть нашу нулевую гипотезу и сказать, что модели предсказывают не одинаково, так как $P_{value}<0.05$. ****Учитывая, что мы опровергли нулевую гипотезу и то, что в среднем у линейной регрессии mse ниже, можно сделать вывод, что она действительно лучше! В этом и дальнейших примерах нам повезло, разброс между метриками на фолдах был не сильно большой, но обычно это не так. В реальности лучше делать несколько разбиений на фолды (как в этой статье) либо использовать 5x2cv.
Стоит заметить, что T-тестом Стьюдента не стоит пользоваться, если есть разница в количестве наблюдений в выборке. В таких случаях лучше подходит T-тест Уэлча.