Критерий Мак-Нимара
Материал из MachineLearning.
 (Новая: {{UnderConstruction|~~~~}}  '''Критерий Мак-Нимара''' (также, К. ''Мак-Немара'', англ. ''McNemar's test'') используется для анали...)  | 
				|||
| (4 промежуточные версии не показаны) | |||
| Строка 1: | Строка 1: | ||
| - | + | '''Критерий Мак-Нимара''' (также, К. ''Мак-Немара'', англ. ''McNemar's test'') используется для анализа [[Таблица сопряженности|таблиц сопряженности]] размером 2x2 (для дихотомического признака). В отличие от критерия [[Таблица сопряженности#Критерий "хи-квадрат" для анализа таблиц сопряженности|хи-квадрат]], критерий Мак-Немара применяется, когда условие независимости наблюдений не выполняется, но, напротив, учет признака выполняется на одних и тех же субъектах.  | |
| - | + | ||
| - | '''Критерий Мак-Нимара''' (также, К. ''Мак-Немара'', англ. ''McNemar's test'') используется для анализа [[  | + | |
== Определение ==  | == Определение ==  | ||
| - | + | Рассмотрим ''n'' субъектов, для каждого из которых было проведено 2 теста:  | |
| - | {| class="wikitable" style="text-align:center"  | + | |
| + | ::{| class="wikitable" style="text-align:center"  | ||
|-  | |-  | ||
| - | |         ||   | + | |         || Тест 2 положительный || Тест 2 отрицательный || Сумма в строке  | 
|-  | |-  | ||
| - | |   | + | | Тест 1 положительный || ''a'' || ''b'' || ''a'' + ''b''  | 
|-  | |-  | ||
| - | |   | + | | Тест 1 отрицательный || ''c'' || ''d'' || ''c'' + ''d''  | 
|-  | |-  | ||
| - | |   | + | | Сумма в столбце || ''a'' + ''c'' || ''b'' + ''d'' || ''n''  | 
| - | |}  | + | |}  | 
| - | + | ||
| - | + | [[Нулевая гипотеза]] утверждает, что маргинальные распределения для всех исходов совпадают:  | |
| - | ::<tex>  | + | ::<tex>p_a + p_b = p_a + p_c</tex>,  | 
| - | + | ::<tex>p_c + p_d = p_b + p_d</tex>.  | |
| - | + | ||
| - | + | ||
| - | + | ||
| - | </tex>  | + | |
| - | + | Заметим, что корректность этих равенств не зависит от <tex>p_a</tex> и <tex>p_b</tex>. После сокращения, получаем оригинальную формулировку нулевой и альтернативной гипотез:  | |
| - | + | ::<tex>H_0~: \quad p_b = p_c</tex>,  | |
| + | ::<tex>H_1~: \quad p_b \ne p_c</tex>.  | ||
| - | + | Оригинальная форма [[Статистический критерий|статистического критерия]] Мак-Немара такова:  | |
| - | + | ::<tex>\chi^2 = {(b-c)^2 \over b+c}</tex>.  | |
| - | :  | + | Применение [[Коррекция Йейтса|коррекции Йейтса]] для повышения качества качества критерия на выборках с низкочастотными событиями приводит к следующей формуле:  | 
| - | + | ::<tex>\chi^2 = {(|b-c|-0.5)^2 \over b+c}</tex>.  | |
| - | <  | + | |
| - | + | На практике (например, по умолчанию в функции <code>mcnemar.test</code> в R), однако, обычно применяется коррекция Эдвардса:  | |
| - | ::<tex>\chi^2 = {(|b-c|-1)^2 \over b+c}.</tex>  | + | |
| + | ::<tex>\chi^2 = {(|b-c|-1)^2 \over b+c}</tex>.  | ||
| + | |||
| + | При условии выполнения нулевой гипотезы для достаточно больших выборок (''b + c > 25'') статистика <tex>\chi^2</tex> имеет распределение [[Распределение хи-квадрат|хи-квадрат]] с одной степенью свободы.  | ||
| + | Для маленьких выборок (''b + c <= 25'') применяют точный критерий Мак-Немара, который является [[Критерий знаков|критерием знаков]] для ''b'' относительно биномиального распределения с параметрами ''n = b + c, p = 1/2''.  | ||
== Пример ==  | == Пример ==  | ||
| + | |||
| + | <tex>  | ||
| + | \begin{array}{cc}  | ||
| + | & \text{Sibling} \\  | ||
| + | \text{Patient} &  | ||
| + | \begin{array}{c|c|c}  | ||
| + | \hline & \text{No tonsillectomy} & \text{Tonsillectomy} \\  | ||
| + | \hline\text{No tonsillectomy} & 37 & 7 \\  | ||
| + | \hline\text{Tonsillectomy} & 15 & 26  | ||
| + | \end{array}  | ||
| + | \end{array}  | ||
| + | </tex>  | ||
| + | |||
| + | В системе R:  | ||
| + | <pre>  | ||
| + | > d <- matrix(c(37, 7, 15, 26), 2, 2)  | ||
| + | > mcnemar.test(d)  | ||
| + | |||
| + | 	McNemar's Chi-squared test with continuity correction  | ||
| + | |||
| + | data:  d  | ||
| + | McNemar's chi-squared = 2.2273, df = 1, p-value = 0.1356  | ||
| + | |||
| + | > mcnemar.test(d, correct=F)  | ||
| + | |||
| + | 	McNemar's Chi-squared test  | ||
| + | |||
| + | data:  d  | ||
| + | McNemar's chi-squared = 2.9091, df = 1, p-value = 0.08808  | ||
| + | |||
| + | > mcnemar.exact(d)  | ||
| + | |||
| + | 	Exact McNemar test (with central confidence intervals)  | ||
| + | |||
| + | data:  d  | ||
| + | b = 15, c = 7, p-value = 0.1338  | ||
| + | alternative hypothesis: true odds ratio is not equal to 1  | ||
| + | 95 percent confidence interval:  | ||
| + |  0.8224084 6.2125863  | ||
| + | sample estimates:  | ||
| + | odds ratio   | ||
| + |   2.142857   | ||
| + | </pre>  | ||
== Реализации ==  | == Реализации ==  | ||
* MATLAB: встроенной реализации нет, есть [http://www.mathworks.com/matlabcentral/fileexchange/index?utf8=%E2%9C%93&term=mcnemar реализации на File Exchange].  | * MATLAB: встроенной реализации нет, есть [http://www.mathworks.com/matlabcentral/fileexchange/index?utf8=%E2%9C%93&term=mcnemar реализации на File Exchange].  | ||
| - | * R:   | + | * R: функция [http://stat.ethz.ch/R-manual/R-patched/library/stats/html/mcnemar.test.html <code>mcnemar.test</code>] в стандартном пакете <code>stats</code> и <code>mcnemar.exact</code> в пакете <code>exact2x2</code>.  | 
| - | * Python:   | + | * Python: Библиотека [http://statsmodels.sourceforge.net/stable/generated/statsmodels.sandbox.stats.runs.mcnemar.html#statsmodels.sandbox.stats.runs.mcnemar <code>statsmodels</code>].  | 
== Ссылки ==  | == Ссылки ==  | ||
* [http://en.wikipedia.org/wiki/McNemar%27s_test EnWiki: McNemar's test]  | * [http://en.wikipedia.org/wiki/McNemar%27s_test EnWiki: McNemar's test]  | ||
| - | * McNemar, Quinn (June 18, 1947). "Note on the sampling error of the difference between correlated proportions or percentages". Psychometrika 12 (2): 153–157. http://dx.doi.org/10.1007%  | + | * McNemar, Quinn (June 18, 1947). [http://dx.doi.org/10.1007%2FBF02295996 "Note on the sampling error of the difference between correlated proportions or percentages"]. Psychometrika 12 (2): 153–157.   | 
| - | * Fay, Michael P  | + | * Yates, F (1934). [http://www.jstor.org/pss/2983604 "Contingency table involving small numbers and the χ2 test"]. Supplement to the Journal of the Royal Statistical Society 1(2), 217–235.   | 
| + | * Edwards, A (1948). [http://dx.doi.org/10.1007%2FBF02289261"Note on the "correction for continuity" in testing the significance of the difference between correlated proportions"]. Psychometrika 13: 185–187.   | ||
| + | * Fay, Michael P. [http://cran.rstudio.com/web/packages/exact2x2/vignettes/exactMcNemar.pdf "Exact McNemar’s Test and Matching Confidence Intervals"]. (2011).  | ||
| + | |||
| + | [[Категория:Прикладная статистика]]  | ||
| + | [[Категория:Статистические критерии]]  | ||
Текущая версия
Критерий Мак-Нимара (также, К. Мак-Немара, англ. McNemar's test) используется для анализа таблиц сопряженности размером 2x2 (для дихотомического признака). В отличие от критерия хи-квадрат, критерий Мак-Немара применяется, когда условие независимости наблюдений не выполняется, но, напротив, учет признака выполняется на одних и тех же субъектах.
Содержание | 
Определение
Рассмотрим n субъектов, для каждого из которых было проведено 2 теста:
Тест 2 положительный Тест 2 отрицательный Сумма в строке Тест 1 положительный a b a + b Тест 1 отрицательный c d c + d Сумма в столбце a + c b + d n 
Нулевая гипотеза утверждает, что маргинальные распределения для всех исходов совпадают:
,
.
Заметим, что корректность этих равенств не зависит от  и 
. После сокращения, получаем оригинальную формулировку нулевой и альтернативной гипотез:
,
.
Оригинальная форма статистического критерия Мак-Немара такова:
.
Применение коррекции Йейтса для повышения качества качества критерия на выборках с низкочастотными событиями приводит к следующей формуле:
.
На практике (например, по умолчанию в функции mcnemar.test в R), однако, обычно применяется коррекция Эдвардса:
.
При условии выполнения нулевой гипотезы для достаточно больших выборок (b + c > 25) статистика  имеет распределение хи-квадрат с одной степенью свободы.
Для маленьких выборок (b + c <= 25) применяют точный критерий Мак-Немара, который является критерием знаков для b относительно биномиального распределения с параметрами n = b + c, p = 1/2.
Пример
В системе R:
> d <- matrix(c(37, 7, 15, 26), 2, 2) > mcnemar.test(d) McNemar's Chi-squared test with continuity correction data: d McNemar's chi-squared = 2.2273, df = 1, p-value = 0.1356 > mcnemar.test(d, correct=F) McNemar's Chi-squared test data: d McNemar's chi-squared = 2.9091, df = 1, p-value = 0.08808 > mcnemar.exact(d) Exact McNemar test (with central confidence intervals) data: d b = 15, c = 7, p-value = 0.1338 alternative hypothesis: true odds ratio is not equal to 1 95 percent confidence interval: 0.8224084 6.2125863 sample estimates: odds ratio 2.142857
Реализации
- MATLAB: встроенной реализации нет, есть реализации на File Exchange.
 -  R: функция 
mcnemar.testв стандартном пакетеstatsиmcnemar.exactв пакетеexact2x2. -  Python: Библиотека 
statsmodels. 
Ссылки
- EnWiki: McNemar's test
 - McNemar, Quinn (June 18, 1947). "Note on the sampling error of the difference between correlated proportions or percentages". Psychometrika 12 (2): 153–157.
 - Yates, F (1934). "Contingency table involving small numbers and the χ2 test". Supplement to the Journal of the Royal Statistical Society 1(2), 217–235.
 - Edwards, A (1948). "Note on the "correction for continuity" in testing the significance of the difference between correlated proportions". Psychometrika 13: 185–187.
 - Fay, Michael P. "Exact McNemar’s Test and Matching Confidence Intervals". (2011).
 

