Парадокс хи-квадрат
Материал из MachineLearning.
 (Новая: Скоро здесь будет статья)  | 
				|||
| (6 промежуточных версий не показаны.) | |||
| Строка 1: | Строка 1: | ||
| - | + | ==Описание задачи==  | |
| + | Рассматривается следующий любопытный пример из области проверки однородности с помощью [[Таблица сопряженности|критерия хи-квадрат]]. В таблицах, приведённых ниже, содержится информация о действии некоторого метода лечения (заключается в приеме определенного лекарства) смертельно опасной болезни   | ||
| + | * отдельно на мужчин  | ||
| + | * отдельно на женщин  | ||
| + | * на больных обоего пола (объединённые результаты)   | ||
| + | |||
| + | {| style="width:30%; height:100px" border="1"  | ||
| + | ! Мужчины|| Выздоровел || Нет   | ||
| + | |- align="center"   | ||
| + | ! Принимал  | ||
| + | | 700 || 800  | ||
| + | |- align="center"   | ||
| + | ! Нет   | ||
| + | | 80    | ||
| + | | width=30%| 130  | ||
| + | |}  | ||
| + | <br>  | ||
| + | {| style="width:30%; height:100px" border="1"  | ||
| + | ! Женщины|| Выздоровела || Нет  | ||
| + | |- align="center"    | ||
| + | ! Принимала  | ||
| + | | 150 || 70  | ||
| + | |- align="center"   | ||
| + | ! Нет  | ||
| + | | 400   | ||
| + | | width=30%| 280  | ||
| + | |}  | ||
| + | <br>  | ||
| + | {| style="width:30%; height:100px" border="1"  | ||
| + | ! М+Ж|| Выздоровел(а) || Нет   | ||
| + | |- align="center"    | ||
| + | ! Принимал(а)  | ||
| + | | 850 || 870  | ||
| + | |- align="center"   | ||
| + | ! Нет  | ||
| + | | 480    | ||
| + | |width=30%| 410  | ||
| + | |}  | ||
| + | |||
| + | ==Решение задачи==  | ||
| + | Используя [[Таблица сопряженности#Частный случай K=L=2|критерий хи-квадрат для анализа таблиц сопряженности]] получим следующие статистики:<br>  | ||
| + | * X<sup>2</sup>=5,456 для мужчин  | ||
| + | * X<sup>2</sup>=6,125 для женщин  | ||
| + | Согласно таблице распределения хи-квадрат с одной степенью свободы находим, что фактические уровни значимости равны 0,02 и 0,01. Это свидетельствует о существенности различия вероятностей выздоровления между теми, кто использовал данный метод лечения и теми, кто его не использовал, т.е. лекарство влияет на выздоровление.  | ||
| + | |||
| + | С другой стороны, статистика хи-квадрат для таблицы с объединенными результатами X<sup>2</sup>=4,782, что значимо велико на уровне 0,03, т.е. лекарство не влияет на выздоровление!  | ||
| + | |||
| + | Г. Секей пишет: "Аналогично, новое лекарство может оказаться эффективным в каждом из десяти различных госпиталей, но объединение результатов укажет на то, что это лекарство либо бесполезно, либо вредно".  | ||
| + | ===Причина парадокса===  | ||
| + | Нехватка данных. <br>  | ||
| + | Необходимо, чтобы М<sub>п</sub>=М<sub>н</sub>=Ж<sub>п</sub>=Ж<sub>н</sub>  | ||
| + | |||
| + | ==Смотри также==  | ||
| + | # [[Статистический анализ данных (курс лекций, К.В.Воронцов)/2008]]  | ||
| + | ==Литература==  | ||
| + | # Г. Секей "Парадоксы в теории вероятностей и математической статистике"  | ||
| + | [[Категория:Энциклопедия анализа данных]]  | ||
| + | [[Категория:Анализ таблиц сопряженности]]  | ||
Текущая версия
Содержание | 
Описание задачи
Рассматривается следующий любопытный пример из области проверки однородности с помощью критерия хи-квадрат. В таблицах, приведённых ниже, содержится информация о действии некоторого метода лечения (заключается в приеме определенного лекарства) смертельно опасной болезни
- отдельно на мужчин
 - отдельно на женщин
 - на больных обоего пола (объединённые результаты)
 
| Мужчины | Выздоровел | Нет | 
|---|---|---|
| Принимал | 700 | 800 | 
| Нет | 80 | 130 | 
| Женщины | Выздоровела | Нет | 
|---|---|---|
| Принимала | 150 | 70 | 
| Нет | 400 | 280 | 
| М+Ж | Выздоровел(а) | Нет | 
|---|---|---|
| Принимал(а) | 850 | 870 | 
| Нет | 480 | 410 | 
Решение задачи
Используя критерий хи-квадрат для анализа таблиц сопряженности получим следующие статистики:
- X2=5,456 для мужчин
 - X2=6,125 для женщин
 
Согласно таблице распределения хи-квадрат с одной степенью свободы находим, что фактические уровни значимости равны 0,02 и 0,01. Это свидетельствует о существенности различия вероятностей выздоровления между теми, кто использовал данный метод лечения и теми, кто его не использовал, т.е. лекарство влияет на выздоровление.
С другой стороны, статистика хи-квадрат для таблицы с объединенными результатами X2=4,782, что значимо велико на уровне 0,03, т.е. лекарство не влияет на выздоровление!
Г. Секей пишет: "Аналогично, новое лекарство может оказаться эффективным в каждом из десяти различных госпиталей, но объединение результатов укажет на то, что это лекарство либо бесполезно, либо вредно".
Причина парадокса
Нехватка данных. 
Необходимо, чтобы Мп=Мн=Жп=Жн
Смотри также
Литература
- Г. Секей "Парадоксы в теории вероятностей и математической статистике"
 

