Таблица сопряженности
Материал из MachineLearning.
м   | 
			|||
| (2 промежуточные версии не показаны) | |||
| Строка 59: | Строка 59: | ||
[[Эффективность ПК для поступления на ВМК МГУ]]  | [[Эффективность ПК для поступления на ВМК МГУ]]  | ||
==Литература==  | ==Литература==  | ||
| - | #   | + | # Лапач С. Н. , Чубенко А. В., Бабич П. Н. Статистика в науке и бизнесе. — Киев: Морион, 2002.  | 
| + | # Г. Аптон. Анализ таблиц сопряженности  | ||
| + | [[Категория:Энциклопедия анализа данных]]  | ||
| + | [[Категория:Анализ таблиц сопряженности]]  | ||
Текущая версия
Содержание | 
Описание таблиц сопряженности
Таблица сопряженности - средство представления совместного распределения двух переменных, предназначенное для исследования связи между ними. Таблица сопряженности является наиболее универсальным средством изучения статистических связей, так как в ней могут быть представлены переменные с любым уровнем измерения.
Строки таблицы сопряженности соответствуют значениям одной переменной, столбцы - значениям другой переменной (количественные шкалы предварительно должны быть сгруппированы в интервалы). На пересечении строки и столбца указывается частота совместного появления fij соответствующих значений двух признаков xi и yj. Сумма частот по строке fi называется маргинальной частотой строки; сумма частот по столбцу fj - маргинальной частотой столбца. Сумма маргинальных частот равна объему выборки n; их распределение представляет собой одномерное распределение переменной, образующей строки или столбцы таблицы.
В таблицах сопряженности могут быть представлены как абсолютные, так и относительные частоты (в долях или процентах). Относительные частоты могут рассчитываться по отношению:
- к маргинальной частоте по строке
 - к маргинальной частоте по столбцу
 - к объему выборки
 
Таблицы сопряженности используются для проверки гипотезы о наличии связи между двумя признаками ( Статистическая связь, Критерий "хи-квадрат" ), а также для измерения тесноты связи ( Коэффициент фи, Коэффициент контингенции, Коэффициент Крамера)
Критерий "хи-квадрат" для анализа таблиц сопряженности
Гипотеза H0: переменные x и y независимы. Пусть имеется таблица сопряженности KxL, построенная для переменных x и y:
| 1 | ... | j | ... | L | |
|---|---|---|---|---|---|
| 1 | |||||
| ... | |||||
| i | nij | ||||
| ... | |||||
| K | 
Введем следующие обозначения:
 - наблюдаемая частота (i,j)
  
 - ожидаемая частота при H0
Статистика 
Условие применимости
Eij<5 не более чем в 20% ячеек n>40
Частный случай K=L=2
  | 1 | 2 | |||
|---|---|---|---|---|---|
| 1 | a | b | |||
| 2 | c | d | 
Статистика , где
Примеры задач
Эффективность ПК для поступления на ВМК МГУ
Литература
- Лапач С. Н. , Чубенко А. В., Бабич П. Н. Статистика в науке и бизнесе. — Киев: Морион, 2002.
 - Г. Аптон. Анализ таблиц сопряженности
 

