Таблица сопряженности
Материал из MachineLearning.
 (Новая: Скоро здесь будет статья)  | 
				м   | 
			||
| (4 промежуточные версии не показаны) | |||
| Строка 1: | Строка 1: | ||
| - | + | ==Описание таблиц сопряженности==  | |
| + | '''Таблица сопряженности''' - средство представления совместного распределения двух переменных, предназначенное для исследования связи между ними. Таблица сопряженности является наиболее универсальным средством изучения статистических связей, так как в ней могут быть представлены переменные с любым уровнем измерения.   | ||
| + | |||
| + | Строки таблицы сопряженности соответствуют значениям одной переменной, столбцы - значениям другой  переменной (количественные шкалы предварительно должны быть сгруппированы в интервалы). На пересечении строки и столбца указывается частота совместного появления f<sub>ij</sub> соответствующих значений двух признаков x<sub>i</sub> и y<sub>j</sub>. Сумма частот по строке f<sub>i</sub> называется маргинальной частотой строки; сумма частот по столбцу f<sub>j</sub> - маргинальной частотой столбца. Сумма маргинальных частот равна объему выборки n; их распределение  представляет собой одномерное распределение переменной, образующей строки или столбцы таблицы.   | ||
| + | |||
| + | В таблицах сопряженности могут быть представлены как абсолютные, так и относительные частоты (в долях или процентах). Относительные частоты могут рассчитываться по отношению:   | ||
| + | * к маргинальной частоте по строке   | ||
| + | * к маргинальной частоте по столбцу   | ||
| + | * к объему выборки   | ||
| + | |||
| + | Таблицы сопряженности используются для проверки гипотезы о наличии связи между двумя признаками ( [[Статистическая связь]],  [[Таблица сопряженности#Критерий "хи-квадрат" для анализа таблиц сопряженности|Критерий "хи-квадрат"]] ), а также для измерения тесноты связи ( [[Коэффициент  фи]], [[Коэффициент контингенции]], [[Коэффициент Крамера]])  | ||
| + | ==Критерий "хи-квадрат" для анализа таблиц сопряженности==  | ||
| + | Гипотеза H<sub>0</sub>: переменные x и y независимы.  | ||
| + | Пусть имеется таблица сопряженности KxL, построенная для переменных x и y:  | ||
| + | {| border=1  | ||
| + | ! || 1 || ... || j || ... || L  | ||
| + | |-    | ||
| + | ! 1  | ||
| + | |-  | ||
| + | ! ...  | ||
| + | |-  | ||
| + | ! i   | ||
| + | | || || n<sub>ij</sub>  | ||
| + | |-  | ||
| + | ! ...  | ||
| + | |-  | ||
| + | ! K  | ||
| + | |}  | ||
| + | Введем следующие обозначения:<br>  | ||
| + | <tex>n_{ij}=\sum_{(x,y)}[x=i][y=j]</tex><br>  | ||
| + | <tex>n_{i}=\sum_{j}n_{ij}</tex><br>  | ||
| + | <tex>n_{j}=\sum_{i}n_{ij}</tex><br>  | ||
| + | <tex>n=\sum_{i}\sum_{j}n_{ij}</tex><br>  | ||
| + | <tex>\frac{n_{ij}}{n}</tex> - наблюдаемая частота (i,j)<br>    | ||
| + | <tex>E_{ij}=\frac{n_{i}n_{j}}{n}</tex> - ожидаемая частота при H<sub>0</sub><br>  | ||
| + | Статистика <tex>X^{2}=\sum_{(i,j)}\frac{(n_{ij}-\frac{n_{i}n_{j}}{n})^{2}}{\frac{n_{i}n_{j}}{n}}=n(\sum_{i=1}^{K}\sum_{j=1}^{L}\frac{n_{ij}^{2}}{n_{i}n_{j}}-1)\sim\chi_{KL-(K-1)-(L-1)-1}^{2}=\chi_{(K-1)(L-1)}^{2}</tex>  | ||
| + | ===Условие применимости===  | ||
| + | E<sub>ij</sub><5 не более чем в 20% ячеек  | ||
| + | n>40  | ||
| + | ===Частный случай K=L=2===  | ||
| + | {| border=1 cellpadding="6" cellspacing="0"  | ||
| + | |  | ||
| + | {|   | ||
| + | ! || y  | ||
| + | |-   | ||
| + | ! x   | ||
| + | |}  | ||
| + | ! 1 || 2   | ||
| + | |- align="center"   | ||
| + | ! 1   | ||
| + | |a || b  | ||
| + | |- align="center"   | ||
| + | ! 2  | ||
| + | |c || d  | ||
| + | |}<br>  | ||
| + | Статистика <tex>X^{2}=\frac{n(ad-bc)^{2}}{(a+b)(a+c)(b+d)(c+d)}\sim\chi_{1}</tex>, где<br>  | ||
| + | <tex>n=a+b+c+d</tex><br>  | ||
| + | ====Примеры задач====  | ||
| + | [[Эффективность ПК для поступления на ВМК МГУ]]  | ||
| + | ==Литература==  | ||
| + | # Лапач С. Н. , Чубенко А. В., Бабич П. Н. Статистика в науке и бизнесе. — Киев: Морион, 2002.  | ||
| + | # Г. Аптон. Анализ таблиц сопряженности  | ||
| + | [[Категория:Энциклопедия анализа данных]]  | ||
| + | [[Категория:Анализ таблиц сопряженности]]  | ||
Текущая версия
Содержание | 
Описание таблиц сопряженности
Таблица сопряженности - средство представления совместного распределения двух переменных, предназначенное для исследования связи между ними. Таблица сопряженности является наиболее универсальным средством изучения статистических связей, так как в ней могут быть представлены переменные с любым уровнем измерения.
Строки таблицы сопряженности соответствуют значениям одной переменной, столбцы - значениям другой переменной (количественные шкалы предварительно должны быть сгруппированы в интервалы). На пересечении строки и столбца указывается частота совместного появления fij соответствующих значений двух признаков xi и yj. Сумма частот по строке fi называется маргинальной частотой строки; сумма частот по столбцу fj - маргинальной частотой столбца. Сумма маргинальных частот равна объему выборки n; их распределение представляет собой одномерное распределение переменной, образующей строки или столбцы таблицы.
В таблицах сопряженности могут быть представлены как абсолютные, так и относительные частоты (в долях или процентах). Относительные частоты могут рассчитываться по отношению:
- к маргинальной частоте по строке
 - к маргинальной частоте по столбцу
 - к объему выборки
 
Таблицы сопряженности используются для проверки гипотезы о наличии связи между двумя признаками ( Статистическая связь, Критерий "хи-квадрат" ), а также для измерения тесноты связи ( Коэффициент фи, Коэффициент контингенции, Коэффициент Крамера)
Критерий "хи-квадрат" для анализа таблиц сопряженности
Гипотеза H0: переменные x и y независимы. Пусть имеется таблица сопряженности KxL, построенная для переменных x и y:
| 1 | ... | j | ... | L | |
|---|---|---|---|---|---|
| 1 | |||||
| ... | |||||
| i | nij | ||||
| ... | |||||
| K | 
Введем следующие обозначения:
 - наблюдаемая частота (i,j)
  
 - ожидаемая частота при H0
Статистика 
Условие применимости
Eij<5 не более чем в 20% ячеек n>40
Частный случай K=L=2
  | 1 | 2 | |||
|---|---|---|---|---|---|
| 1 | a | b | |||
| 2 | c | d | 
Статистика , где
Примеры задач
Эффективность ПК для поступления на ВМК МГУ
Литература
- Лапач С. Н. , Чубенко А. В., Бабич П. Н. Статистика в науке и бизнесе. — Киев: Морион, 2002.
 - Г. Аптон. Анализ таблиц сопряженности
 

