Участник:Василий Ломакин/Критерий Уилкоксона для связных выборок
Материал из MachineLearning.
| (14 промежуточных версий не показаны.) | |||
| Строка 1: | Строка 1: | ||
| - | '''Критерий Уилкоксона для связных выборок''' — [[непараметрический статистический критерий]]  | + | {{TOCright}}  | 
| + | |||
| + | TODO:  | ||
| + | # Таблица ??? Найти в инете, скопировать и дать ссылку на источник?  | ||
| + | |||
| + | '''Критерий Уилкоксона (Вилкоксона) для связных выборок''' (Wilcoxon signed-rank test) — [[непараметрический статистический критерий]], применяемый для оценки различий между двумя '''зависимыми''' выборками, взятыми из закона распределения, отличного от нормального, либо измеренными с использованием [[Теория измерений|порядковой шкалы]]. Критерий является [[Ранговый критерий|ранговым]], поэтому он инвариантен по отношению к любому монотонному преобразованию шкалы измерения.   | ||
== Пример задачи ==  | == Пример задачи ==  | ||
| + | Первая выборка - температура пациентов до начала лечения. Вторая - температура в точности этих же пациентов после введения лекарства. Требуется выяснить, повлияло ли применение лекарства на температуру больных. Выборки '''связные''', измерены в [[Теория измерений|порядковой шкале]].  | ||
== Описание критерия ==  | == Описание критерия ==  | ||
| Строка 9: | Строка 15: | ||
'''Дополнительные предположения:'''  | '''Дополнительные предположения:'''  | ||
| - | *   | + | * Обе выборки [[простая выборка|простые]].  | 
| - | *   | + | * Выборки связные, то есть элементы <tex>x_i,\: y_i</tex> соответствуют одному и тому же объекту, но измерения сделаны в разные моменты (например, до и после обработки).   | 
| - | '''[[Нулевая гипотеза]]''' <tex>H_0:\; \mathbb{P} \{x_i  | + | '''[[Нулевая гипотеза]]''' <tex>H_0:\; \mathbb{P} \{x_i < y_i \} = 1/2</tex>.  | 
| - | '''  | + | '''Вычисление статистики критерия:'''  | 
# Рассчитать значения разностей пар двух выборок. Нулевые разности далее не учитываются. <tex>N</tex> - количество ненулевых разностей.  | # Рассчитать значения разностей пар двух выборок. Нулевые разности далее не учитываются. <tex>N</tex> - количество ненулевых разностей.  | ||
# Проранжировать модули разностей пар в возрастающем порядке.  | # Проранжировать модули разностей пар в возрастающем порядке.  | ||
| Строка 22: | Строка 28: | ||
'''Критерий''' (при [[уровень значимости|уровне значимости]] <tex>\alpha</tex>):  | '''Критерий''' (при [[уровень значимости|уровне значимости]] <tex>\alpha</tex>):  | ||
| - | Против альтернативы <tex>H_1:\; \mathbb{P} \{ x_i  | + | Против альтернативы <tex>H_1:\; \mathbb{P} \{ x_i < y_i \} \neq 1/2</tex>:  | 
| - | : если <tex>R</tex> больше табличного значения критерия знаковых рангов Уилкоксона <tex>T^{+}</tex> с уровнем значимости <tex>\alpha/2</tex> и числом степеней свободы <tex>N</tex>, то нулевая гипотеза отвергается.  | + | : если <tex>R</tex> больше табличного значения критерия знаковых рангов Уилкоксона <tex>T^{+}</tex><ref>Лапач С. Н. Статистика в науке и бизнесе. — 529 с.</ref><ref>Холлендер М., Вулф Д. Непараметрические методы статистики. — Табл. А.4.</ref> с уровнем значимости <tex>\alpha/2</tex> и числом степеней свободы <tex>N</tex>, то нулевая гипотеза отвергается.  | 
| - | '''Асимптотический критерий''':  | + | '''Асимптотический критерий:'''  | 
| + | |||
| + | [[Изображение:Standard_Normal_Density_-_Right_Critical_Area.png|thumb|Критическая область критерия Уилкоксона для связных выборок.]]  | ||
Рассмотрим нормированную и центрированную статистика Уилкоксона:  | Рассмотрим нормированную и центрированную статистика Уилкоксона:  | ||
| - | |||
| - | |||
| - | :  | + | :<tex>\tilde T = \frac{R - \frac{N(N+1)}{4}}{\sqrt{\frac{N(N+1)(2N+1)}{24}}}</tex>;  | 
| - | :<tex>\frac{N(N+1)(2N+1) - \frac{\sum_{j=1}^{g}{t_j(t_j-1)(t_j+1)}}{2}}{24},</tex>  | + | <tex>\tilde T</tex> асимптотически имеет стандартное нормальное распределение. Нулевая гипотеза (против альтернативы <tex>H_1</tex>) отвергается, если <tex> \tilde T \ge \Phi_{1-\alpha/2} </tex>, где <tex>\Phi_{1-\alpha}</tex> есть <tex>(1-\alpha)</tex>-[[квантиль]] стандартного нормального распределения.   | 
| - | :где <tex>g</tex> - количество связок, <tex>t_1, \ldots, t_g</tex> - их размеры.  | + | |
| + | Аппроксимация начинает работать при <tex>N \ge 15</tex>.<ref>Лагутин М. Б. Наглядная математическая статистика. — 223 с.</ref>  | ||
| + | |||
| + | '''Поправка:'''<ref>Лагутин М. Б. Наглядная математическая статистика. — 223 с.</ref>  | ||
| + | |||
| + | В 1974 году Р. Иман предложил следующую аппроксимацию, обеспечивающую значительное снижение относительной ошибки для критических значений. Она использует линейную комбинацию нормальной и стьюдентовской квантилей. Положим:  | ||
| + | |||
| + | <tex>\tilde T ^{*} = \frac12 \tilde T \left[ 1 + \sqrt{(n-1)(n - (\tilde T)^2)} \right]</tex>.  | ||
| + | |||
| + | Гипотеза <tex>H_0</tex> отвергается, если <tex>\tilde T ^{*} \ge (x_{1-\alpha}+y_{1-\alpha})/2</tex>, где <tex>x_{1-\alpha},\; y_{1-\alpha}</tex> обозначают соответственно квантили уровня <tex>1-\alpha</tex> стандартного нормального распределения и распределения Стьюдента с <tex>n-1</tex> степенью свободы.  | ||
| + | |||
| + | '''Случай совпадающих наблюдений:'''  | ||
| + | |||
| + | При наличии [[Вариационный ряд|связок]] необходимо учесть их с помощью поправки. Выражение в знаменателе нормированной и центрированной статистики Уилкоксона необходимо заменить на следующее:  | ||
| + | |||
| + | :<tex>\left{ \frac{N(N+1)(2N+1) - \frac{\sum_{j=1}^{g}{t_j(t_j-1)(t_j+1)}}{2}}{24} \right}^{1/2},</tex><ref>Лапач С. Н. Статистика в науке и бизнесе. — 156 с.</ref>  | ||
| + | |||
| + | :где <tex>g</tex> - количество связок, <tex>t_1, \ldots, t_g</tex> - их размеры. Для элементов связок вычисляется [[Вариационный ряд|средний ранг]].  | ||
| + | |||
| + | '''Другие гипотезы:'''  | ||
| - | |||
<tex>H_0:\; </tex> средняя разница между значениями пар двух выборок равна заданной константе A.  | <tex>H_0:\; </tex> средняя разница между значениями пар двух выборок равна заданной константе A.  | ||
| + | |||
<tex>H_1:\; </tex> средняя разница не равна A.  | <tex>H_1:\; </tex> средняя разница не равна A.  | ||
В этом случае из каждой разности вычитается значение A, и дальнейшая обработка выполняется по описанной схеме.  | В этом случае из каждой разности вычитается значение A, и дальнейшая обработка выполняется по описанной схеме.  | ||
| + | == Применение критерия ==  | ||
| + | Метод часто используется для сравнения показателей выборки до и после эксперимента, в частности для проверки гипотезы о равенстве медиан в двух зависимых выборках. Вообще говоря, можно строить примеры, когда медианы выборок различны, а гипотеза <tex>H_0</tex> верна, поэтому применять критерий для проверки такой гипотезы следует с осторожностью. Аналогичными недостатками (в своей области применения) обладают [[Критерий Уилкоксона двухвыборочный|двухвыборочный критерий Вилкоксона]] и [[Критерий_Уилкоксона-Манна-Уитни|U-критерий Манна-Уитни]].<ref>Орлов А. И. Эконометрика. — §4.5.</ref>  | ||
| + | |||
| + | Критерий является аналогом [[Критерий Стьюдента|t-критерия Стьюдента для связанных выборок]] в случае распределения, отличного от нормального, либо данных, измеренных в количественной шкале. К нормально распределённым совокупностям следует применять более мощный t-критерий.  | ||
| + | |||
| + | == История ==  | ||
| + | Данный критерий назван именем Френка Уилкоксона (1892-1965). Статья, выпущенная им в 1945 году, содержала также описание [[Критерий_Уилкоксона_двухвыборочный|аналогичного метода]] для случая независимых выборок.  | ||
| - | ==   | + | == Примечания ==  | 
| + | <references/>  | ||
== Литература ==  | == Литература ==  | ||
# ''Лапач С. Н., Чубенко А. В., Бабич П. Н.'' Статистика в науке и бизнесе. — Киев: Морион, 2002. — 164-166 с.  | # ''Лапач С. Н., Чубенко А. В., Бабич П. Н.'' Статистика в науке и бизнесе. — Киев: Морион, 2002. — 164-166 с.  | ||
# ''Кобзарь А. И.'' Прикладная математическая статистика. — М.: Физматлит, 2006. — 457-458 с.  | # ''Кобзарь А. И.'' Прикладная математическая статистика. — М.: Физматлит, 2006. — 457-458 с.  | ||
| + | # ''Орлов А. И.'' Эконометрика. — М.: Экзамен, 2003. — §4.5.  | ||
| + | # ''Лагутин М. Б.'' Наглядная математическая статистика. В двух томах. — М.: П-центр, 2003. — 222-227 с.  | ||
| + | # ''Холлендер М., Вулф Д.'' Непараметрические методы статистики. — М.: Финансы и статистика, 1983.  | ||
== Ссылки ==   | == Ссылки ==   | ||
* [[Проверка статистических гипотез]] — о методологии проверки статистических гипотез.   | * [[Проверка статистических гипотез]] — о методологии проверки статистических гипотез.   | ||
| - | * [[  | + | * [[Критерий Уилкоксона двухвыборочный]] — аналог критерия для случая независимых выборок.   | 
| + | * [http://en.wikipedia.org/wiki/Wilcoxon_signed-rank_test Wilcoxon signed-rank test] — статья в англоязычной Википедии.  | ||
Текущая версия
 
  | 
TODO:
- Таблица ??? Найти в инете, скопировать и дать ссылку на источник?
 
Критерий Уилкоксона (Вилкоксона) для связных выборок (Wilcoxon signed-rank test) — непараметрический статистический критерий, применяемый для оценки различий между двумя зависимыми выборками, взятыми из закона распределения, отличного от нормального, либо измеренными с использованием порядковой шкалы. Критерий является ранговым, поэтому он инвариантен по отношению к любому монотонному преобразованию шкалы измерения.
Пример задачи
Первая выборка - температура пациентов до начала лечения. Вторая - температура в точности этих же пациентов после введения лекарства. Требуется выяснить, повлияло ли применение лекарства на температуру больных. Выборки связные, измерены в порядковой шкале.
Описание критерия
Заданы две выборки .
Дополнительные предположения:
- Обе выборки простые.
 -  Выборки связные, то есть элементы 
соответствуют одному и тому же объекту, но измерения сделаны в разные моменты (например, до и после обработки).
 
Вычисление статистики критерия:
-  Рассчитать значения разностей пар двух выборок. Нулевые разности далее не учитываются. 
- количество ненулевых разностей.
 - Проранжировать модули разностей пар в возрастающем порядке.
 - Приписать рангам знаки соответствующих им разностей.
 -  Рассчитать сумму 
положительных рангов.
 
Критерий (при уровне значимости ):
Против альтернативы :
-  если 
больше табличного значения критерия знаковых рангов Уилкоксона
[1][2] с уровнем значимости
и числом степеней свободы
, то нулевая гипотеза отвергается.
 
Асимптотический критерий:
Рассмотрим нормированную и центрированную статистика Уилкоксона:
;
 асимптотически имеет стандартное нормальное распределение. Нулевая гипотеза (против альтернативы 
) отвергается, если 
, где 
 есть 
-квантиль стандартного нормального распределения. 
Аппроксимация начинает работать при .[3]
Поправка:[4]
В 1974 году Р. Иман предложил следующую аппроксимацию, обеспечивающую значительное снижение относительной ошибки для критических значений. Она использует линейную комбинацию нормальной и стьюдентовской квантилей. Положим:
.
Гипотеза  отвергается, если 
, где 
 обозначают соответственно квантили уровня 
 стандартного нормального распределения и распределения Стьюдента с 
 степенью свободы.
Случай совпадающих наблюдений:
При наличии связок необходимо учесть их с помощью поправки. Выражение в знаменателе нормированной и центрированной статистики Уилкоксона необходимо заменить на следующее:
- где 
- количество связок,
- их размеры. Для элементов связок вычисляется средний ранг.
 
Другие гипотезы:
 средняя разница между значениями пар двух выборок равна заданной константе A.
 средняя разница не равна A.
В этом случае из каждой разности вычитается значение A, и дальнейшая обработка выполняется по описанной схеме.
Применение критерия
Метод часто используется для сравнения показателей выборки до и после эксперимента, в частности для проверки гипотезы о равенстве медиан в двух зависимых выборках. Вообще говоря, можно строить примеры, когда медианы выборок различны, а гипотеза  верна, поэтому применять критерий для проверки такой гипотезы следует с осторожностью. Аналогичными недостатками (в своей области применения) обладают двухвыборочный критерий Вилкоксона и U-критерий Манна-Уитни.[6]
Критерий является аналогом t-критерия Стьюдента для связанных выборок в случае распределения, отличного от нормального, либо данных, измеренных в количественной шкале. К нормально распределённым совокупностям следует применять более мощный t-критерий.
История
Данный критерий назван именем Френка Уилкоксона (1892-1965). Статья, выпущенная им в 1945 году, содержала также описание аналогичного метода для случая независимых выборок.
Примечания
- ↑ Лапач С. Н. Статистика в науке и бизнесе. — 529 с.
 - ↑ Холлендер М., Вулф Д. Непараметрические методы статистики. — Табл. А.4.
 - ↑ Лагутин М. Б. Наглядная математическая статистика. — 223 с.
 - ↑ Лагутин М. Б. Наглядная математическая статистика. — 223 с.
 - ↑ Лапач С. Н. Статистика в науке и бизнесе. — 156 с.
 - ↑ Орлов А. И. Эконометрика. — §4.5.
 
Литература
- Лапач С. Н., Чубенко А. В., Бабич П. Н. Статистика в науке и бизнесе. — Киев: Морион, 2002. — 164-166 с.
 - Кобзарь А. И. Прикладная математическая статистика. — М.: Физматлит, 2006. — 457-458 с.
 - Орлов А. И. Эконометрика. — М.: Экзамен, 2003. — §4.5.
 - Лагутин М. Б. Наглядная математическая статистика. В двух томах. — М.: П-центр, 2003. — 222-227 с.
 - Холлендер М., Вулф Д. Непараметрические методы статистики. — М.: Финансы и статистика, 1983.
 
Ссылки
- Проверка статистических гипотез — о методологии проверки статистических гипотез.
 - Критерий Уилкоксона двухвыборочный — аналог критерия для случая независимых выборок.
 - Wilcoxon signed-rank test — статья в англоязычной Википедии.
 

