Критерий Стьюдента
Материал из MachineLearning.
t-критерий Стьюдента — общее название для статистических тестов, в которых статистика критерия имеет распределение Стьюдента. Наиболее часто t-критерии применяются для проверки равенства средних значений в двух выборках.
Все разновидности критерия Стьюдента являются параметрическими и основаны на дополнительном предположении о нормальности выборки данных. Поэтому перед применением критерия Стьюдента рекомендуется выполнить проверку нормальности. Если гипотеза нормальности отвергается, можно проверить другие распределения, или использоватьнепараметрические статистические тесты.
Сравнение выборочного среднего с заданным значением
Задана выборка .
Дополнительное предположение: выборка нормальна.
Нулевая гипотеза  (выборочное среднее равно заданному числу 
).
Статистика критерия:
имеет распределение Стьюдента с   степенями свободы,
где
— выборочное среднее,
— выборочная дисперсия.
Критерий (при уровне значимости ):
-  против альтернативы 
 
- если 
, то нулевая гипотеза отвергается;
 
- если 
 
-  против альтернативы 
 
- если 
, то нулевая гипотеза отвергается;
 
- если 
 
-  против альтернативы 
 
- если 
, то нулевая гипотеза отвергается;
 
- если 
 
где
 есть 
-квантиль распределения Стьюдента с 
 степенями свободы.
Сравнение двух выборочных средних при известных дисперсиях
Заданы две выборки .
Дополнительные предположения:
- обе выборки нормальны;
 -  значения дисперсий 
известны априори; это означает, что дисперсии были оценены заранее не по этим выборкам, а исходя из какой-то другой информации; случай «неизвестных дисперсий», когда такого источника информации нет и дисперсии приходится оценивать по самим выборкам, описан ниже.
 
Нулевая гипотеза  (средние в двух выборках равны).
Статистика критерия:
имеет стандартное нормальное распределение ,
где
— выборочные средние.
Критерий (при уровне значимости ):
-  против альтернативы 
 
- если 
, то нулевая гипотеза отвергается;
 
- если 
 
-  против альтернативы 
 
- если 
, то нулевая гипотеза отвергается;
 
- если 
 
-  против альтернативы 
 
- если 
, то нулевая гипотеза отвергается;
 
- если 
 
где
 есть 
-квантиль стандартного нормального распределения.
Сравнение двух выборочных средних при неизвестных равных дисперсиях
Заданы две выборки .
Дополнительные предположения:
- обе выборки нормальны;
 -  значения дисперсий равны: 
, но априори не известны.
 
Нулевая гипотеза  (средние в двух выборках равны).
Статистика критерия:
имеет распределение Стьюдента с   степенями свободы,
где
— выборочные дисперсии;
— выборочные средние.
Критерий (при уровне значимости ):
-  против альтернативы 
 
- если 
, то нулевая гипотеза отвергается;
 
- если 
 
-  против альтернативы 
 
- если 
, то нулевая гипотеза отвергается;
 
- если 
 
-  против альтернативы 
 
- если 
, то нулевая гипотеза отвергается;
 
- если 
 
где
 есть 
-квантиль распределения Стьюдента с 
 степенями свободы.
Сравнение двух выборочных средних при неизвестных неравных дисперсиях
Задача сравнения средних двух нормально распределённых выборок при неизвестных и неравных дисперсиях известна как проблема Беренса-Фишера. Точного решения этой задачи до настоящего времени нет. На практике используются различные приближения.
Заданы две выборки .
Дополнительное предположение: обе выборки нормальны.
Нулевая гипотеза  (средние в двух выборках равны).
Статистика критерия:
где
— выборочные дисперсии;
— выборочные средние.
Критерий (при уровне значимости ):
-  против альтернативы 
 
- если 
, то нулевая гипотеза отвергается;
 
- если 
 
-  против альтернативы 
 
- если 
, то нулевая гипотеза отвергается;
 
- если 
 
-  против альтернативы 
 
- если 
, то нулевая гипотеза отвергается;
 
- если 
 
где квантили  определяются по-разному в различных приближениях:
- Критерий Кохрена-Кокса:
 
, где
есть
-квантиль распределения Стьюдента с
степенями свободы;
- Критерий Сатервайта:
 
есть
-квантиль распределения Стьюдента с числом степеней свободы
- Критерий Крамера-Уэлча:
 
есть
-квантиль распределения Стьюдента с числом степеней свободы
Сравнение двух выборочных средних в связанных выборках
Заданы две выборки одинаковой длины .
Дополнительные предположения:
- обе выборки нормальны;
 -  выборки связны, то есть элементы 
соответствуют одному и тому же объекту, но измерения сделаны в разные моменты (например, до и после обработки).
 
Сравнение выборочных средних в связанных выборках ничем не отличается от сравнения среднего разности  с нулём. 
История
Критерий был разработан Уильямом Госсеттом для оценки качества пива на пивоваренных заводах Гиннесса в Дублине (Ирландия). В связи с обязательствами перед компанией по неразглашению коммерческой тайны (руководство Гиннесса считало таковой использование статистического аппарата в своей работе), статья Госсетта вышла в 1908 году в журнале «Биометрика» под псевдонимом «Student» (Студент).
Литература
- Кобзарь А. И. Прикладная математическая статистика. — М.: Физматлит, 2006.
 
Ссылки
- Проверка статистических гипотез — о методологии проверки статистических гипотез.
 - Статистика (функция выборки)
 - Student's t-test — статья в англоязычной Википедии.
 - t-критерий Стьюдента — статья в русской Википедии.
 

