Критерий Краскела-Уоллиса
Материал из MachineLearning.
м   | 
				|||
| Строка 1: | Строка 1: | ||
'''Критерий Краскела-Уоллиса''' предназначен для проверки равенства средних нескольких выборок.  | '''Критерий Краскела-Уоллиса''' предназначен для проверки равенства средних нескольких выборок.  | ||
| - | Данный критерий является   | + | Данный критерий является многовыборочным обобщением  [[Критерий Уилкоксона-Манна-Уитни|критерия Уилкоксона-Манна-Уитни]].  | 
Критерий Краскела-Уоллиса является ранговым, поэтому он инвариантен по отношению к любому монотонному преобразованию шкалы измерения.  | Критерий Краскела-Уоллиса является ранговым, поэтому он инвариантен по отношению к любому монотонному преобразованию шкалы измерения.  | ||
Известен так же под названиями: критерий Крускала-Уоллиса,<i>H</i>-критерий Краскела-Уоллиса, Kruskal-Wallis one-way analysis of variance, Kruskal-Wallis test.  | Известен так же под названиями: критерий Крускала-Уоллиса,<i>H</i>-критерий Краскела-Уоллиса, Kruskal-Wallis one-way analysis of variance, Kruskal-Wallis test.  | ||
| Строка 12: | Строка 12: | ||
Значения в выборках — шансы России на победу по десятибальной шкале (1 —- никаких перспектив, 10 —- отвезти в Россию кубок —- дело времени).  | Значения в выборках — шансы России на победу по десятибальной шкале (1 —- никаких перспектив, 10 —- отвезти в Россию кубок —- дело времени).  | ||
Требуется проверить, зависят ли результаты опросов от хода чемпионата.  | Требуется проверить, зависят ли результаты опросов от хода чемпионата.  | ||
| + | |||
| + | '''Пример 2.'''  | ||
| + | Выборка состоит из пациентов, у которых был диагностирован неизлечимый рак какого-либо органа. Всем им в качестве поддерживающей терапии был назначен к приёму витамин C (считалось, что он может способствовать выздоровлению раковых больных). Приведены данные об остаточной продолжительности жизни пациентов в днях. То есть выборка состоит из пар вида (пораженный орган, число дней), разделяясь на несколько числовых подвыборок, каждая из которых соответствует своему пораженному органу.  | ||
| + | |||
| + | Требуется проверить, отличается ли остаточная продолжительность жизни в зависимости от того, какой орган поражён раковой опухолью.  | ||
== Описание критерия ==  | == Описание критерия ==  | ||
| - | Заданы <i>k</i> выборок: <tex>  | + | Заданы <i>k</i> выборок: <tex>X_1=\left\{x_1^1,\dots,x_1^{n_1}\right\}, \dots, X_k=\left\{x_k^1,\dots,x_k^{n_k}\right\}</tex>.  | 
| - | Объединённая выборка: <tex>  | + | Объединённая выборка: <tex>X=X_1\cup X_2\cup \dots \cup X_k</tex>.  | 
''Дополнительные предположения:''  | ''Дополнительные предположения:''  | ||
| Строка 24: | Строка 29: | ||
Проверяется [[нулевая гипотеза]] <tex>H_0:\; F_1(x)=\dots=F_k(x)</tex> при альтернативе <tex>H_1:\; F_1(x)=F_2(x-\Delta_1)=\dots=F_k(x-\Delta_{k-1})</tex>.  | Проверяется [[нулевая гипотеза]] <tex>H_0:\; F_1(x)=\dots=F_k(x)</tex> при альтернативе <tex>H_1:\; F_1(x)=F_2(x-\Delta_1)=\dots=F_k(x-\Delta_{k-1})</tex>.  | ||
| - | Упорядочим все <tex>N=\sum_{i=1}^k n_i</tex> элементов выборок по возрастанию и обозначим <tex>  | + | Упорядочим все <tex>N=\sum_{i=1}^k n_i</tex> элементов выборок по возрастанию и обозначим <tex>R_i^j</tex> ранг <i>j</i>-го элемента <i>i</i>-й выборки в полученном [[вариационный ряд|вариационном ряду]].  | 
| - | Статистика критерия Краскела-Уоллиса для проверки гипотезы о наличии сдвига в параметрах положения   | + | Статистика критерия Краскела-Уоллиса для проверки гипотезы о наличии сдвига в параметрах положения сравниваемых выборок имеет вид <br />  | 
| - | :: <tex>H=\sum_{i=1}^k \left( 1-\frac{n_i}{N} \right) \left\{ \frac{\bar{R}_i-\frac{N+1}{2}}{\sqrt{\frac{(N-n_i)(N+1)}{12n_i}}} \right\} ^{\frac{1}{2}}=\frac{12}{N(N+1)}\sum_{i=1}^k \left( \bar{R}_i-\frac{N+1}{2} \right) ^2 = \frac{12}{N(N+1)} \sum_{i=1}^k \frac{R_i^2}{n_i}-3(N+1),</tex> <br />  | + | :: <tex>H=\sum_{i=1}^k \left( 1-\frac{n_i}{N} \right) \left\{ \frac{\bar{R}_i-\frac{N+1}{2}}{\sqrt{\frac{(N-n_i)(N+1)}{12n_i}}} \right\} ^{\frac{1}{2}}=\frac{12}{N(N+1)}\sum_{i=1}^k n_i \left( \bar{R}_i-\frac{N+1}{2} \right) ^2 = \frac{12}{N(N+1)} \sum_{i=1}^k \frac{R_i^2}{n_i}-3(N+1),</tex> <br />  | 
| - | где <tex>R_i=\sum_{j=1}^k   | + | где <tex>R_i=\sum_{j=1}^k R_i^j;\: \bar{R}_i=\frac{R_i}{n_i}</tex>.  | 
Гипотеза сдвига отклоняется на уровне значимости <tex>\alpha</tex>, если <tex>H \ge H_{\alpha}</tex>, где <tex>H_{\alpha}</tex> — критическое значение, при <tex>k \le 5</tex> и <tex>n_i \le 8</tex> вычисляемое по таблицам.  | Гипотеза сдвига отклоняется на уровне значимости <tex>\alpha</tex>, если <tex>H \ge H_{\alpha}</tex>, где <tex>H_{\alpha}</tex> — критическое значение, при <tex>k \le 5</tex> и <tex>n_i \le 8</tex> вычисляемое по таблицам.  | ||
| - | При   | + | При больших значениях применимы различные аппроксимации.  | 
=== Аппроксимация Краскела-Уоллиса ===  | === Аппроксимация Краскела-Уоллиса ===  | ||
Версия 19:44, 14 февраля 2010
Критерий Краскела-Уоллиса предназначен для проверки равенства средних нескольких выборок. Данный критерий является многовыборочным обобщением критерия Уилкоксона-Манна-Уитни. Критерий Краскела-Уоллиса является ранговым, поэтому он инвариантен по отношению к любому монотонному преобразованию шкалы измерения. Известен так же под названиями: критерий Крускала-Уоллиса,H-критерий Краскела-Уоллиса, Kruskal-Wallis one-way analysis of variance, Kruskal-Wallis test.
Содержание | 
Примеры задач
Пример 1. Проходит чемпионат мира по футболу. Первая выборка —- опрос болельщиков с вопросом "Каковы шансы на победу сборной России?" до начала чемпионата. Вторая выборка —- после первой игры, третья —- после второго матча и т.д. Значения в выборках — шансы России на победу по десятибальной шкале (1 —- никаких перспектив, 10 —- отвезти в Россию кубок —- дело времени). Требуется проверить, зависят ли результаты опросов от хода чемпионата.
Пример 2. Выборка состоит из пациентов, у которых был диагностирован неизлечимый рак какого-либо органа. Всем им в качестве поддерживающей терапии был назначен к приёму витамин C (считалось, что он может способствовать выздоровлению раковых больных). Приведены данные об остаточной продолжительности жизни пациентов в днях. То есть выборка состоит из пар вида (пораженный орган, число дней), разделяясь на несколько числовых подвыборок, каждая из которых соответствует своему пораженному органу.
Требуется проверить, отличается ли остаточная продолжительность жизни в зависимости от того, какой орган поражён раковой опухолью.
Описание критерия
Заданы k выборок: .
Объединённая выборка: 
.
Дополнительные предположения:
- обе выборки простые, объединённая выборка независима;
 -  выборки взяты из неизвестных непрерывных распределений  
.
 
Проверяется нулевая гипотеза  при альтернативе 
.
Упорядочим все  элементов выборок по возрастанию и обозначим 
 ранг j-го элемента i-й выборки в полученном вариационном ряду.
Статистика критерия Краскела-Уоллиса для проверки гипотезы о наличии сдвига в параметрах положения сравниваемых выборок имеет вид 
где .
Гипотеза сдвига отклоняется на уровне значимости , если 
, где 
 — критическое значение, при 
 и 
 вычисляемое по таблицам.
При больших значениях применимы различные аппроксимации.
Аппроксимация Краскела-Уоллиса
Пусть 
Тогда статистика 
будет иметь при отсутствии сдвига F-распределение с  и 
 степенями свободы.
Таким образом, нулевая гипотеза отклоняется с достоверностью 
, если 
.
Аппроксимация Имана-Давенпорта
В соответстви с ней нулевая гипотеза сдвига отклоняется с достоверностью , если 
, где 
 и 
 — соответственно критические значения статистик Фишера и хи-квадрат с соответствующими степенями свободы.
Это более точная аппроксимация, чем аппроксимация Краскела-Уоллиса.
При наличии связанных рангов (т.е. когда совпадают значения величин из разных выборок и им присваиваются одинаковые средние ранги) необходимо использовать модифицированную статистику  где 
 — размер j-й группы одинаковых элементов; q — количество групп одинаковых элементов.
При 
 справедлива аппроксимация распределения статистики 
-распределением с f=k-1 степенями свободы, т.е. нулевая гипотеза отклоняется, если 
.
См. также
Литература
- Kruskal W. H. and Wallis W. A. Use of ranks in one-criterion variance analysis. // Journal of the American Statistical Association. — 1952, 47 №260. — Pp. 583–621.
 - Ликеш И., Ляга Й. Основные таблицы математической статистики. — М.: Финансы и статистика, 1985.
 - Кобзарь А. И. Прикладная математическая статистика. — М.: Физматлит, 2006. — 466-468 с.
 
Ссылки
- Wikipedia: Kruskal-Wallis one-way analysis of variance
 - Expanded Tables of Critical Values for the Kruskal-Wallis H Statistic
 
|   |  Данная статья является непроверенным учебным заданием.
 До указанного срока статья не должна редактироваться другими участниками проекта MachineLearning.ru. По его окончании любой участник вправе исправить данную статью по своему усмотрению и удалить данное предупреждение, выводимое с помощью шаблона {{Задание}}. См. также методические указания по использованию Ресурса MachineLearning.ru в учебном процессе.  | 

