Таблица сопряженности
Материал из MachineLearning.
(Новая: Скоро здесь будет статья) |
|||
| Строка 1: | Строка 1: | ||
| - | + | ==Описание таблиц сопряженности== | |
| + | '''Таблица сопряженности''' - средство представления совместного распределения двух переменных, предназначенное для исследования связи между ними. Таблица сопряженности является наиболее универсальным средством изучения статистических связей, так как в ней могут быть представлены переменные с любым уровнем измерения. | ||
| + | |||
| + | Строки таблицы сопряженности соответствуют значениям одной переменной, столбцы - значениям другой переменной (количественные шкалы предварительно должны быть сгруппированы в интервалы). На пересечении строки и столбца указывается частота совместного появления f<sub>ij</sub> соответствующих значений двух признаков x<sub>i</sub> и y<sub>j</sub>. Сумма частот по строке f<sub>i</sub> называется маргинальной частотой строки; сумма частот по столбцу f<sub>j</sub> - маргинальной частотой столбца. Сумма маргинальных частот равна объему выборки n; их распределение представляет собой одномерное распределение переменной, образующей строки или столбцы таблицы. | ||
| + | |||
| + | В таблицах сопряженности могут быть представлены как абсолютные, так и относительные частоты (в долях или процентах). Относительные частоты могут рассчитываться по отношению: | ||
| + | * к маргинальной частоте по строке | ||
| + | * к маргинальной частоте по столбцу | ||
| + | * к объему выборки | ||
| + | |||
| + | Таблицы сопряженности используются для проверки гипотезы о наличии связи между двумя признаками ( [[Статистическая связь]], [[Описание таблиц сопряженности|Критерий "хи-квадрат"]] ), а также для измерения тесноты связи ( [[Коэффициент фи]], [[Коэффициент контингенции]], [[Коэффициент Крамера]]) | ||
| + | ==Критерий "хи-квадрат" для анализа таблиц сопряженности== | ||
| + | Гипотеза H<sub>0</sub>: переменные x и y независимы. | ||
| + | Пусть имеется таблица сопряженности KxL, построенная для переменных x и y: | ||
| + | {| border=1 | ||
| + | ! || 1 || ... || j || ... || L | ||
| + | |- | ||
| + | ! 1 | ||
| + | |- | ||
| + | ! ... | ||
| + | |- | ||
| + | ! i | ||
| + | | || || n<sub>ij</sub> | ||
| + | |- | ||
| + | ! ... | ||
| + | |- | ||
| + | ! K | ||
| + | |} | ||
| + | Введем следующие обозначения:<br> | ||
| + | <tex>n_{ij}=\sum_{(x,y)}[x=i][y=j]</tex><br> | ||
| + | <tex>n_{i}=\sum_{j}n_{ij}</tex><br> | ||
| + | <tex>n_{j}=\sum_{i}n_{ij}</tex><br> | ||
| + | <tex>n=\sum_{i}\sum_{j}n_{ij}</tex><br> | ||
| + | <tex>\frac{n_{ij}}{n}</tex> - наблюдаемая частота (i,j)<br> | ||
| + | <tex>E_{ij}=\frac{n_{i}n_{j}}{n}</tex> - ожидаемая частота при H<sub>0</sub><br> | ||
| + | Статистика <tex>X^{2}=\sum_{(i,j)}\frac{(n_{ij}-\frac{n_{i}n_{j}}{n})^{2}}{\frac{n_{i}n_{j}}{n}}=n(\sum_{i=1}^{K}\sum_{j=1}^{L}\frac{n_{ij}^{2}}{n_{i}n_{j}}-1)\sim\chi_{KL-(K-1)-(L-1)-1}^{2}=\chi_{(K-1)(L-1)}^{2}</tex> | ||
| + | ===Условие применимости=== | ||
| + | E<sub>ij</sub><5 не более чем в 20% ячеек | ||
| + | n>40 | ||
| + | ===Частный случай K=L=2=== | ||
| + | {| border=1 cellpadding="6" cellspacing="0" | ||
| + | | | ||
| + | {| | ||
| + | ! || y | ||
| + | |- | ||
| + | ! x | ||
| + | |} | ||
| + | ! 1 || 2 | ||
| + | |- align="center" | ||
| + | ! 1 | ||
| + | |a || b | ||
| + | |- align="center" | ||
| + | ! 2 | ||
| + | |c || d | ||
| + | |}<br> | ||
| + | Статистика <tex>X^{2}=\frac{n(ad-bc)^{2}}{(a+b)(a+c)(b+d)(c+d)}\sim\chi_{1}</tex>, где<br> | ||
| + | <tex>n=a+b+c+d</tex><br> | ||
| + | ====Примеры задач==== | ||
| + | [[Эффективность ПК для поступления на ВМК МГУ]] | ||
| + | ==Литература== | ||
| + | # [[Статистический анализ данных (курс лекций, К.В.Воронцов)/2008]] | ||
Версия 10:34, 9 января 2009
Содержание |
Описание таблиц сопряженности
Таблица сопряженности - средство представления совместного распределения двух переменных, предназначенное для исследования связи между ними. Таблица сопряженности является наиболее универсальным средством изучения статистических связей, так как в ней могут быть представлены переменные с любым уровнем измерения.
Строки таблицы сопряженности соответствуют значениям одной переменной, столбцы - значениям другой переменной (количественные шкалы предварительно должны быть сгруппированы в интервалы). На пересечении строки и столбца указывается частота совместного появления fij соответствующих значений двух признаков xi и yj. Сумма частот по строке fi называется маргинальной частотой строки; сумма частот по столбцу fj - маргинальной частотой столбца. Сумма маргинальных частот равна объему выборки n; их распределение представляет собой одномерное распределение переменной, образующей строки или столбцы таблицы.
В таблицах сопряженности могут быть представлены как абсолютные, так и относительные частоты (в долях или процентах). Относительные частоты могут рассчитываться по отношению:
- к маргинальной частоте по строке
- к маргинальной частоте по столбцу
- к объему выборки
Таблицы сопряженности используются для проверки гипотезы о наличии связи между двумя признаками ( Статистическая связь, Критерий "хи-квадрат" ), а также для измерения тесноты связи ( Коэффициент фи, Коэффициент контингенции, Коэффициент Крамера)
Критерий "хи-квадрат" для анализа таблиц сопряженности
Гипотеза H0: переменные x и y независимы. Пусть имеется таблица сопряженности KxL, построенная для переменных x и y:
| 1 | ... | j | ... | L | |
|---|---|---|---|---|---|
| 1 | |||||
| ... | |||||
| i | nij | ||||
| ... | |||||
| K |
Введем следующие обозначения:
- наблюдаемая частота (i,j)
- ожидаемая частота при H0
Статистика
Условие применимости
Eij<5 не более чем в 20% ячеек n>40
Частный случай K=L=2
| 1 | 2 | |||
|---|---|---|---|---|---|
| 1 | a | b | |||
| 2 | c | d |
Статистика , где
Примеры задач
Эффективность ПК для поступления на ВМК МГУ

