Критерий хи-квадрат
Материал из MachineLearning.
 
  | 
Критерий  - статистический критерий для проверки гипотезы 
, что наблюдаемая случайная величина подчиняется некому теоретическому закону распределения.
Определение
Пусть дана случайная величина X .
Гипотеза : с. в. X подчиняется закону распределения 
. 
Для проверки гипотезы рассмотрим выборку, состоящую из n независимых наблюдений над с.в. X: 
. 
По выборке построим эмпирическое распределение 
 с.в X. Сравнение эмпирического 
 и теоретического распределения 
 (предполагаемого в гипотезе) производится с помощью специально подобранной функции — критерия согласия. Рассмотрим критерий согласия Пирсона (критерий 
):
Гипотеза : Хn порождается функцией 
.
Разделим [a,b] на k непересекающихся интервалов ;
Пусть  - количество наблюдений в j-м интервале: 
;
 - вероятность попадания наблюдения в j-ый интервал при выполнении гипотезы 
;
 - ожидаемое число попаданий в j-ый интервал;
Статистика:   - Распределение хи-квадрат с k-1 степенью свободы.
  Проверка гипотезы 
 
В  зависимости от значения критерия , гипотеза 
 может приниматься, либо отвергаться:
-  
, гипотеза
выполняется.
 
-  
(попадает в левый "хвост" распределения). Следовательно, теоретические и практические значения очень близки. В таком случае, если, к примеру, происходит проверка генератора случайных чисел, который сгенерировал n чисел из отрезка [0,1] и гипотеза
: выборка
распределена равномерно на [0,1], тогда генератор нельзя называть случайным, т.к. выборка распределена слишком равномерно, но, несмотря на это, гипотеза
выполняется.
 
-  
(попадает в правый "хвост" распределения) гипотеза
отвергается.
 
Пример 1
Проверим гипотезу : если взять случайную выборку 100 человек из  всего населения острова Кипр (генеральной совокупности), где количество мужчин и женщин примерно одинаково (встречаются с одинаковой частотой), то в наблюдаемой выборке отношение количества мужчин и женщин будет соотноситься с частотой как и во всей генеральной выборке(50/50). Пусть в наблюдаемой выборке 46 мужчин и 54 женщины, тогда число степеней свобод 
 и 
Т.о. при уровне значимости  гипотеза 
 выполняется (см. таблицу значений ф-ии 
).
Сложная гипотеза
Гипотеза : Хn порождается функцией 
 - неизвестный параметр. Найдем приближенное значение параметра 
 с помощью метода максимального правдоподобия, основанного на частотах (фиксируем интервалы 
 для 
).
 - число попаданий значений элементов выборки в j-ый интервал. 
, 
Теорема Фишера Для проверки сложной гипотезы критерий  представляется в виде:
, где  
Пример 2
Задача о бомбардировках Лондона [Лагутин, Т2]. Задача возникла в связи с бомбардировками Лондона во время Второй мировой войны. Для улучшения организации оборонительных мероприятий, необходимо было понять цель противника. Для этого территорию города условно разделили сеткой из 24-ёх горизонтальных и 24-ёх вертикальных линий на 576 равных участков. В течении некторого времени в центре организации обороны города собиралась информация о количестве попаданий снарядов в каждый из участков. В итоге были получены следующие данные:
| Число попаданий | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 
|---|---|---|---|---|---|---|---|---|
| Количество участков | 229 | 211 | 93 | 35 | 7 | 0 | 0 | 1 | 
Гипотеза : стрельба случайна (нет "целевых" участков).
Закон редких событий (распределение Пуассона)
, S - число попаданий  
Тогда при уровне значимости  гипотеза 
 не выполняется (см. таблицу значений ф-ии 
).
Объединим события (4,5,6,7) с малой частотой попаданий в одно, тогда имеем:
| Число попаданий | 0 | 1 | 2 | 3 | 4-7 | 
|---|---|---|---|---|---|
| Количество участков | 229 | 211 | 93 | 35 | 8 | 
,
тогда при уровне значимости  гипотеза 
 верна.
Проблемы
Критерий  ошибается на выборках с низкочастотными (редкими) событиями. Решить эту проблему можно отбросив низкочастотные события, либо объединив их с другими событиями. Этот способ называется коррекцией Йетса (Yates' correction).
Литература
Лапач С. Н. , Чубенко А. В., Бабич П. Н. Статистика в науке и бизнесе. (стр. 204,316) — Киев: Морион, 2002.
Лагутин М. Б. Наглядная математическая статистика. (Том 2, стр. 174) — М.: П-центр, 2003.
Кулаичев А. П. Методы и средства комплексного анализа данных. (стр. 162) — М.: Форум–Инфра-М, 2006.

