Критерий Краскела-Уоллиса
Материал из MachineLearning.
| Строка 34: | Строка 34: | ||
:: <tex>H=\sum_{i=1}^k \left( 1-\frac{n_i}{N} \right) \left\{ \frac{\bar{R}_i-\frac{N+1}{2}}{\sqrt{\frac{(N-n_i)(N+1)}{12n_i}}} \right\} ^{\frac{1}{2}}=\frac{12}{N(N+1)}\sum_{i=1}^k n_i \left( \bar{R}_i-\frac{N+1}{2} \right) ^2 = \frac{12}{N(N+1)} \sum_{i=1}^k \frac{R_i^2}{n_i}-3(N+1),</tex> <br />  | :: <tex>H=\sum_{i=1}^k \left( 1-\frac{n_i}{N} \right) \left\{ \frac{\bar{R}_i-\frac{N+1}{2}}{\sqrt{\frac{(N-n_i)(N+1)}{12n_i}}} \right\} ^{\frac{1}{2}}=\frac{12}{N(N+1)}\sum_{i=1}^k n_i \left( \bar{R}_i-\frac{N+1}{2} \right) ^2 = \frac{12}{N(N+1)} \sum_{i=1}^k \frac{R_i^2}{n_i}-3(N+1),</tex> <br />  | ||
где <tex>R_i=\sum_{j=1}^k R_i^j;\: \bar{R}_i=\frac{R_i}{n_i}</tex>.  | где <tex>R_i=\sum_{j=1}^k R_i^j;\: \bar{R}_i=\frac{R_i}{n_i}</tex>.  | ||
| + | |||
| + | При наличии связанных рангов (т.е. когда совпадают значения величин из разных выборок и им присваиваются одинаковые средние ранги) необходимо использовать модифицированную статистику <tex>H*=H\left\{1-\left(\sum_{j=1}^q \frac{T_j}{N^3-N} \right) \right\} ^{-1},</tex> где <tex>T_j=t_j^3-t_j;\; t_j</tex> — размер <i>j</i>-й группы одинаковых элементов; <i>q</i> — количество групп одинаковых элементов.  | ||
Гипотеза сдвига отклоняется на уровне значимости <tex>\alpha</tex>, если <tex>H \ge H_{\alpha}</tex>, где <tex>H_{\alpha}</tex> — критическое значение, при <tex>k \le 5</tex> и <tex>n_i \le 8</tex> вычисляемое по таблицам.  | Гипотеза сдвига отклоняется на уровне значимости <tex>\alpha</tex>, если <tex>H \ge H_{\alpha}</tex>, где <tex>H_{\alpha}</tex> — критическое значение, при <tex>k \le 5</tex> и <tex>n_i \le 8</tex> вычисляемое по таблицам.  | ||
При больших значениях применимы различные аппроксимации.  | При больших значениях применимы различные аппроксимации.  | ||
| + | |||
| + | При <tex>n_i \ge 15</tex> справедлива аппроксимация распределения статистики <tex>H</tex> <tex>\chi_{k-1}^2</tex>-распределением с <i>k-1</i> степенями свободы, т.е. нулевая гипотеза отклоняется, если <tex>H \ge \chi_{k-1,\alpha}^2</tex>.  | ||
=== Аппроксимация Краскела-Уоллиса ===  | === Аппроксимация Краскела-Уоллиса ===  | ||
| Строка 45: | Строка 49: | ||
Тогда статистика <br />  | Тогда статистика <br />  | ||
<div align="center"><tex>F=\frac{H(M-k+1)}{(k-1)(M-H)}</tex></div> <br />  | <div align="center"><tex>F=\frac{H(M-k+1)}{(k-1)(M-H)}</tex></div> <br />  | ||
| - | будет иметь при отсутствии сдвига   | + | будет иметь при отсутствии сдвига распределение Фишера с <tex>\nu_1</tex> и <tex>\nu_2</tex> степенями свободы.  | 
Таким образом, нулевая гипотеза отклоняется с достоверностью <tex>\alpha</tex>, если <tex>F>F_{\alpha}(\nu_1,\nu_2)</tex>.  | Таким образом, нулевая гипотеза отклоняется с достоверностью <tex>\alpha</tex>, если <tex>F>F_{\alpha}(\nu_1,\nu_2)</tex>.  | ||
| Строка 52: | Строка 56: | ||
В соответстви с ней нулевая гипотеза сдвига отклоняется с достоверностью <tex>\alpha</tex>, если <tex>J \ge J_{\alpha}</tex>, где <br />  | В соответстви с ней нулевая гипотеза сдвига отклоняется с достоверностью <tex>\alpha</tex>, если <tex>J \ge J_{\alpha}</tex>, где <br />  | ||
::<tex>M=\frac{H}{2}\left(1+\frac{N-k}{N-1-H}\right);\; J_{\alpha}=\left\{(k-1)F_{\alpha}(k-1;N-l)+\chi_{\alpha}^2(k-1)\right},</tex> <br />  | ::<tex>M=\frac{H}{2}\left(1+\frac{N-k}{N-1-H}\right);\; J_{\alpha}=\left\{(k-1)F_{\alpha}(k-1;N-l)+\chi_{\alpha}^2(k-1)\right},</tex> <br />  | ||
| - | + | <tex>\chi_{\alpha}^2(k-1)</tex> — критическое значение статистики хи-квадрат.  | |
Это более точная аппроксимация, чем аппроксимация Краскела-Уоллиса.  | Это более точная аппроксимация, чем аппроксимация Краскела-Уоллиса.  | ||
| - | |||
| - | |||
== См. также ==  | == См. также ==  | ||
| Строка 63: | Строка 65: | ||
*[[Критерий Уилкоксона-Манна-Уитни]]  | *[[Критерий Уилкоксона-Манна-Уитни]]  | ||
*[[Критерий знаков]]  | *[[Критерий знаков]]  | ||
| + | * [http://ru.wikipedia.org/wiki/%D0%9A%D0%B2%D0%B0%D0%BD%D1%82%D0%B8%D0%BB%D0%B8_%D1%80%D0%B0%D1%81%D0%BF%D1%80%D0%B5%D0%B4%D0%B5%D0%BB%D0%B5%D0%BD%D0%B8%D1%8F_%D1%85%D0%B8-%D0%BA%D0%B2%D0%B0%D0%B4%D1%80%D0%B0%D1%82 Квантили распределения хи-квадрат]  | ||
| + | * [[Изображение:Критические_значения_критерия_Краскела-Уоллиса.png|Критические значения критерия Краскела-Уоллиса при k<=5, n<=8]]  | ||
== Литература ==  | == Литература ==  | ||
| Строка 73: | Строка 77: | ||
*[http://en.wikipedia.org/wiki/Kruskal-Wallis_one-way_analysis_of_variance Wikipedia: Kruskal-Wallis one-way analysis of variance]  | *[http://en.wikipedia.org/wiki/Kruskal-Wallis_one-way_analysis_of_variance Wikipedia: Kruskal-Wallis one-way analysis of variance]  | ||
| - | |||
| - | |||
| - | |||
[[Категория: Прикладная статистика]]  | [[Категория: Прикладная статистика]]  | ||
[[Категория: Статистические тесты]]  | [[Категория: Статистические тесты]]  | ||
Версия 20:38, 14 февраля 2010
Критерий Краскела-Уоллиса предназначен для проверки равенства средних нескольких выборок. Данный критерий является многовыборочным обобщением критерия Уилкоксона-Манна-Уитни. Критерий Краскела-Уоллиса является ранговым, поэтому он инвариантен по отношению к любому монотонному преобразованию шкалы измерения. Известен так же под названиями: критерий Крускала-Уоллиса,H-критерий Краскела-Уоллиса, Kruskal-Wallis one-way analysis of variance, Kruskal-Wallis test.
Содержание | 
Примеры задач
Пример 1. Проходит чемпионат мира по футболу. Первая выборка —- опрос болельщиков с вопросом "Каковы шансы на победу сборной России?" до начала чемпионата. Вторая выборка —- после первой игры, третья —- после второго матча и т.д. Значения в выборках — шансы России на победу по десятибальной шкале (1 —- никаких перспектив, 10 —- отвезти в Россию кубок —- дело времени). Требуется проверить, зависят ли результаты опросов от хода чемпионата.
Пример 2. Выборка состоит из пациентов, у которых был диагностирован неизлечимый рак какого-либо органа. Всем им в качестве поддерживающей терапии был назначен к приёму витамин C (считалось, что он может способствовать выздоровлению раковых больных). Приведены данные об остаточной продолжительности жизни пациентов в днях. То есть выборка состоит из пар вида (пораженный орган, число дней), разделяясь на несколько числовых подвыборок, каждая из которых соответствует своему пораженному органу.
Требуется проверить, отличается ли остаточная продолжительность жизни в зависимости от того, какой орган поражён раковой опухолью.
Описание критерия
Заданы k выборок: .
Объединённая выборка: 
.
Дополнительные предположения:
- обе выборки простые, объединённая выборка независима;
 -  выборки взяты из неизвестных непрерывных распределений  
.
 
Проверяется нулевая гипотеза  при альтернативе 
.
Упорядочим все  элементов выборок по возрастанию и обозначим 
 ранг j-го элемента i-й выборки в полученном вариационном ряду.
Статистика критерия Краскела-Уоллиса для проверки гипотезы о наличии сдвига в параметрах положения сравниваемых выборок имеет вид 
где .
При наличии связанных рангов (т.е. когда совпадают значения величин из разных выборок и им присваиваются одинаковые средние ранги) необходимо использовать модифицированную статистику  где 
 — размер j-й группы одинаковых элементов; q — количество групп одинаковых элементов.
Гипотеза сдвига отклоняется на уровне значимости , если 
, где 
 — критическое значение, при 
 и 
 вычисляемое по таблицам.
При больших значениях применимы различные аппроксимации.
При  справедлива аппроксимация распределения статистики 
 
-распределением с k-1 степенями свободы, т.е. нулевая гипотеза отклоняется, если 
.
Аппроксимация Краскела-Уоллиса
Пусть 
Тогда статистика 
будет иметь при отсутствии сдвига распределение Фишера с  и 
 степенями свободы.
Таким образом, нулевая гипотеза отклоняется с достоверностью 
, если 
.
Аппроксимация Имана-Давенпорта
В соответстви с ней нулевая гипотеза сдвига отклоняется с достоверностью , если 
, где 
 — критическое значение статистики хи-квадрат.
Это более точная аппроксимация, чем аппроксимация Краскела-Уоллиса.
См. также
- Проверка статистических гипотез
 - Критерий Уилкоксона-Манна-Уитни
 - Критерий знаков
 - Квантили распределения хи-квадрат
 -  
 
Литература
- Kruskal W. H. and Wallis W. A. Use of ranks in one-criterion variance analysis. // Journal of the American Statistical Association. — 1952, 47 №260. — Pp. 583–621.
 - Ликеш И., Ляга Й. Основные таблицы математической статистики. — М.: Финансы и статистика, 1985.
 - Кобзарь А. И. Прикладная математическая статистика. — М.: Физматлит, 2006. — 466-468 с.
 

