Критерий Мак-Нимара
Материал из MachineLearning.
 (Новая: {{UnderConstruction|~~~~}}  '''Критерий Мак-Нимара''' (также, К. ''Мак-Немара'', англ. ''McNemar's test'') используется для анали...)  | 
				|||
| Строка 1: | Строка 1: | ||
{{UnderConstruction|[[Участник:Borman|Михаил Борисов]] 14:16, 3 декабря 2013 (MSK)}}  | {{UnderConstruction|[[Участник:Borman|Михаил Борисов]] 14:16, 3 декабря 2013 (MSK)}}  | ||
| - | '''Критерий Мак-Нимара''' (также, К. ''Мак-Немара'', англ. ''McNemar's test'') используется для анализа [[  | + | '''Критерий Мак-Нимара''' (также, К. ''Мак-Немара'', англ. ''McNemar's test'') используется для анализа [[Таблица сопряженности|таблиц сопряженности]] размером 2x2 (для дихотомического признака). В отличие от [[Таблица сопряженности#Критерий "хи-квадрат" для анализа таблиц сопряженности|критерия "хи-квадрат"]], критерий Мак-Немара применяется, когда условие независимости наблюдений не выполняется, но, напротив, учет признака выполняется на одних и тех же субъектах.  | 
== Определение ==  | == Определение ==  | ||
| - | + | Рассмотрим ''n'' субъектов, для каждого из которых было проведено 2 теста:  | |
| + | |||
{| class="wikitable" style="text-align:center"  | {| class="wikitable" style="text-align:center"  | ||
|-  | |-  | ||
| - | |         ||   | + | |         || Тест 2 положительный || Тест 2 отрицательный || Сумма в строке  | 
|-  | |-  | ||
| - | |   | + | | Тест 1 положительный || ''a'' || ''b'' || ''a'' + ''b''  | 
|-  | |-  | ||
| - | |   | + | | Тест 1 отрицательный || ''c'' || ''d'' || ''c'' + ''d''  | 
|-  | |-  | ||
| - | |   | + | | Сумма в столбце || ''a'' + ''c'' || ''b'' + ''d'' || ''n''  | 
| - | |}  | + | |}  | 
| - | + | ||
| - | + | [[Нулевая гипотеза]] утверждает, что маргинальные распределения для всех исходов совпадают:  | |
| - | ::<tex>  | + | ::<tex>p_a + p_b = p_a + p_c</tex>  | 
| - | + | ::<tex>p_c + p_d = p_b + p_d</tex>  | |
| - | + | ||
| - | + | ||
| - | + | ||
| - | </tex>  | + | |
| - | + | Заметим, что корректность этих равенств не зависит от <tex>p_a</tex> и <tex>p_b</tex>. После сокращения, получаем оригинальную формулировку нулевой и альтернативной гипотез:  | |
| - | + | ::<tex>H_0~: \quad p_b = p_c</tex>  | |
| + | ::<tex>H_1~: \quad p_b \ne p_c</tex>  | ||
| - | + | Оригинальная форма [[Статистический критерий|статистического критерия]] Мак-Немара такова:  | |
| - | + | ::<tex>\chi^2 = {(b-c)^2 \over b+c}.</tex>  | |
| + | |||
| + | Применение [[Коррекция Йейтса|коррекции Йейтса]] для повышения качества качества критерия на выборках с низкочастотными событиями приводит к следующей формуле:  | ||
::<tex>\chi^2 = {(|b-c|-0.5)^2 \over b+c}.</tex>  | ::<tex>\chi^2 = {(|b-c|-0.5)^2 \over b+c}.</tex>  | ||
| - | + | На практике <ref>Например, по умолчанию в функции <code>mcnemar.test</code> в R</ref>, однако, обычно применяется коррекция Эдвардса:  | |
| - | <ref   | + | |
| - | + | ||
::<tex>\chi^2 = {(|b-c|-1)^2 \over b+c}.</tex>  | ::<tex>\chi^2 = {(|b-c|-1)^2 \over b+c}.</tex>  | ||
| + | |||
| + | При условии выполнения нулевой гипотезы, для достаточно больших выборок (''b + c > 25'') <tex>\chi^2</tex> имеет хи-квадрат распределение с одной степенью свободы.  | ||
| + | Для маленьких выборок (''b + c <= 25'') применяют точный критерий Мак-Немара, который является [[Критерий знаков|критерием знаков]] для ''b'' относительно биномиального распределения с параметрами ''n = b + c, p = 1/2''.  | ||
== Пример ==  | == Пример ==  | ||
| Строка 47: | Строка 48: | ||
* MATLAB: встроенной реализации нет, есть [http://www.mathworks.com/matlabcentral/fileexchange/index?utf8=%E2%9C%93&term=mcnemar реализации на File Exchange].  | * MATLAB: встроенной реализации нет, есть [http://www.mathworks.com/matlabcentral/fileexchange/index?utf8=%E2%9C%93&term=mcnemar реализации на File Exchange].  | ||
| - | * R:   | + | * R: функция [http://stat.ethz.ch/R-manual/R-patched/library/stats/html/mcnemar.test.html <code>mcnemar.test</code>] в стандартном пакете <code>stats</code> и <code>mcnemar.exact</code> в пакете <code>exact2x2</code>.  | 
| - | * Python: в библиотеках не реализован.  | + | * Python: в библиотеках не реализован, однако [http://code.google.com/p/hydrat/source/browse/src/hydrat/result/stats.py#3 можно найти готовые реализации]  | 
== Ссылки ==  | == Ссылки ==  | ||
* [http://en.wikipedia.org/wiki/McNemar%27s_test EnWiki: McNemar's test]  | * [http://en.wikipedia.org/wiki/McNemar%27s_test EnWiki: McNemar's test]  | ||
| - | * McNemar, Quinn (June 18, 1947). "Note on the sampling error of the difference between correlated proportions or percentages". Psychometrika 12 (2): 153–157. http://dx.doi.org/10.1007%  | + | * McNemar, Quinn (June 18, 1947). [http://dx.doi.org/10.1007%2FBF02295996 "Note on the sampling error of the difference between correlated proportions or percentages"]. Psychometrika 12 (2): 153–157.   | 
| - | * Fay, Michael P  | + | * Yates, F (1934). [http://www.jstor.org/pss/2983604 "Contingency table involving small numbers and the χ2 test"]. Supplement to the Journal of the Royal Statistical Society 1(2), 217–235.   | 
| + | * Edwards, A (1948). [http://dx.doi.org/10.1007%2FBF02289261"Note on the "correction for continuity" in testing the significance of the difference between correlated proportions"]. Psychometrika 13: 185–187.   | ||
| + | * Fay, Michael P. [http://cran.rstudio.com/web/packages/exact2x2/vignettes/exactMcNemar.pdf "Exact McNemar’s Test and Matching Confidence Intervals"]. (2011).  | ||
| + | |||
| + | == Сноски ==  | ||
| + | <references/>  | ||
Версия 21:36, 3 декабря 2013
|   |  Статья в настоящий момент дорабатывается. Михаил Борисов 14:16, 3 декабря 2013 (MSK)  | 
Критерий Мак-Нимара (также, К. Мак-Немара, англ. McNemar's test) используется для анализа таблиц сопряженности размером 2x2 (для дихотомического признака). В отличие от критерия "хи-квадрат", критерий Мак-Немара применяется, когда условие независимости наблюдений не выполняется, но, напротив, учет признака выполняется на одних и тех же субъектах.
Содержание | 
Определение
Рассмотрим n субъектов, для каждого из которых было проведено 2 теста:
| Тест 2 положительный | Тест 2 отрицательный | Сумма в строке | |
| Тест 1 положительный | a | b | a + b | 
| Тест 1 отрицательный | c | d | c + d | 
| Сумма в столбце | a + c | b + d | n | 
Нулевая гипотеза утверждает, что маргинальные распределения для всех исходов совпадают:
Заметим, что корректность этих равенств не зависит от  и 
. После сокращения, получаем оригинальную формулировку нулевой и альтернативной гипотез:
Оригинальная форма статистического критерия Мак-Немара такова:
Применение коррекции Йейтса для повышения качества качества критерия на выборках с низкочастотными событиями приводит к следующей формуле:
На практике [1], однако, обычно применяется коррекция Эдвардса:
При условии выполнения нулевой гипотезы, для достаточно больших выборок (b + c > 25)  имеет хи-квадрат распределение с одной степенью свободы.
Для маленьких выборок (b + c <= 25) применяют точный критерий Мак-Немара, который является критерием знаков для b относительно биномиального распределения с параметрами n = b + c, p = 1/2.
Пример
Реализации
- MATLAB: встроенной реализации нет, есть реализации на File Exchange.
 -  R: функция 
mcnemar.testв стандартном пакетеstatsиmcnemar.exactв пакетеexact2x2. - Python: в библиотеках не реализован, однако можно найти готовые реализации
 
Ссылки
- EnWiki: McNemar's test
 - McNemar, Quinn (June 18, 1947). "Note on the sampling error of the difference between correlated proportions or percentages". Psychometrika 12 (2): 153–157.
 - Yates, F (1934). "Contingency table involving small numbers and the χ2 test". Supplement to the Journal of the Royal Statistical Society 1(2), 217–235.
 - Edwards, A (1948). "Note on the "correction for continuity" in testing the significance of the difference between correlated proportions". Psychometrika 13: 185–187.
 - Fay, Michael P. "Exact McNemar’s Test and Matching Confidence Intervals". (2011).
 

