Критерий хи-квадрат
Материал из MachineLearning.
 (→Проверка гипотезы)  | 
				|||
| Строка 1: | Строка 1: | ||
{{TOCright}}  | {{TOCright}}  | ||
| - | |||
== Определение ==  | == Определение ==  | ||
| Строка 25: | Строка 24: | ||
<tex>E_j = np_j</tex> Ожидаемое число попаданий в j-ый интервал;  | <tex>E_j = np_j</tex> Ожидаемое число попаданий в j-ый интервал;  | ||
| - | '''Статистика:''' <tex>\chi^2 = \sum_{  | + | '''Статистика:''' <tex>\chi^2 = \sum_{j=1}^k \frac{ \left( n_j-E_j \right)^2}{E_j} \sim \chi_{k-1}^2</tex>  - [[Распределение хи-квадрат|Распределение хи-квадрат]] с k-1 степенью свободы.  | 
== Проверка гипотезы <tex>H_0</tex> ==  | == Проверка гипотезы <tex>H_0</tex> ==  | ||
| Строка 36: | Строка 35: | ||
* <tex>\chi^2 \geq \chi^2_2</tex> (попадает в правый "хвост" распределения) гипотеза <tex>H_0</tex> отвергается.  | * <tex>\chi^2 \geq \chi^2_2</tex> (попадает в правый "хвост" распределения) гипотеза <tex>H_0</tex> отвергается.  | ||
| + | |||
| + | == Пример ==  | ||
| + | |||
| + | Проверим гипотезу <tex>H_0</tex>: если взять случайную выборку 100 человек из некоторой популяции, в которой количество мужчин и женщин примерно одинаково (встречаются с одинаковой частотой), то в наблюдаемой выборке отношение количества мужчин и женщин будет соотноситься с частотой по всей популяции (50/50). Пусть в наблюдаемой выборке 46 мужчин и 54 женщины, тогда число степеней свобод <tex>k-1=2-1=1</tex> и   | ||
| + | |||
| + | <tex>\chi^2 = \sum_{j=1}^k \frac{ \left( n_j-E_j \right)^2}{E_j}= \frac{\left(46-50 \right)^2}{50}+\frac{\left(54-50 \right)^2}{50}=0,64 </tex>  | ||
| + | |||
| + | Т.о. при уровне значимости <tex>\alpha=0.05</tex> гипотеза <tex>H_0</tex> выполняется (см таблицу значений ф-ии <tex>\chi^2_k</tex>).  | ||
== Сложная гипотеза ==  | == Сложная гипотеза ==  | ||
| - | == Теорема Фишера ==  | + | Гипотеза <tex>H_0^*</tex>: Х<sup>n</sup> порождается функцией <tex>F(x,\theta),\; \theta \in R^d,\;  \theta</tex> - неизвестна. Найдем <tex>\hat{\theta}</tex> с помощью [[Метод максимального правдоподобия|метода максимального правдоподобия]].  | 
| + | |||
| + | <tex>p_j(\theta)=F(b_j,\theta)-F(a_j,\theta)</tex>, <tex> n_j = \sum_{i=1}^n \left[ a_i <x \leq b_i \right] </tex>, <tex>\left(a_j,b_j \right]</tex> - фиксированы при <tex>j=1 \dots k</tex>.  | ||
| + | |||
| + | <tex>\hat{\theta} = \arg \max_{\theta} \sum n_j \ln p_j(\theta) </tex>  | ||
| + | |||
| + | |||
| + | '''Теорема Фишера''' <tex>\chi^2 = \sum_{j=1}^k \frac{ \left( n_j-E_j \right)^2}{E_j} \sim \chi_{k-d-1}^2</tex>, где  <tex>E_j=n p_j\left(\hat{\theta}\right)</tex>  | ||
| + | |||
== Литература ==  | == Литература ==  | ||
Версия 19:39, 8 декабря 2008
 
  | 
Определение
Критерий  - наиболее часто используемый статистический критерий для проверки гипотезы 
, что наблюдаемая случайная величина подчиняется некому теоретическому закону распределения.
Пусть дана случайная величина X .
Гипотеза : с. в. X подчиняется закону распределения 
. 
Для проверки гипотезы рассмотрим выборку, состоящую из n независимых наблюдений над с.в. X: 
. 
По выборке построим эмпирическое распределение 
 с.в X. Сравнение эмпирического 
 и теоретического распределения 
 производится с помощью специально подобранной случайной величины — критерия согласия. Рассмотрим критерий согласия Пирсона (критерий 
):
Гипотеза : Хn порождается функцией 
.
Разделим [a,b] на k непересекающихся интервалов ;
Пусть  - количество наблюдений в j-м интервале: 
;
 - вероятность попадания наблюдения в j-ый интервал при выполнении гипотезы 
;
 Ожидаемое число попаданий в j-ый интервал;
Статистика:   - Распределение хи-квадрат с k-1 степенью свободы.
  Проверка гипотезы 
 
В  зависимости от значения критерия , гипотеза 
 может приниматься, либо отвергаться:
-  
, гипотеза
выполняется.
 
-  
(попадает в левый "хвост" распределения) гипотеза
отвергается.
 
-  
(попадает в правый "хвост" распределения) гипотеза
отвергается.
 
Пример
Проверим гипотезу : если взять случайную выборку 100 человек из некоторой популяции, в которой количество мужчин и женщин примерно одинаково (встречаются с одинаковой частотой), то в наблюдаемой выборке отношение количества мужчин и женщин будет соотноситься с частотой по всей популяции (50/50). Пусть в наблюдаемой выборке 46 мужчин и 54 женщины, тогда число степеней свобод 
 и 
Т.о. при уровне значимости  гипотеза 
 выполняется (см таблицу значений ф-ии 
).
Сложная гипотеза
Гипотеза : Хn порождается функцией 
 - неизвестна. Найдем 
 с помощью метода максимального правдоподобия.
, 
, 
 - фиксированы при 
.
Теорема Фишера , где  

