Участник:Василий Ломакин/Критерий Уилкоксона двухвыборочный
Материал из MachineLearning.
| Строка 7: | Строка 7: | ||
Заданы две выборки <tex>x^m = (x_1,\ldots,x_m),\; x_i \in \mathbb{R};\;\; y^n = (y_1,\ldots,y_n),\; y_i \in \mathbb{R};\; m \le n,</tex> в противном случае следует поменять выборки местами.  | Заданы две выборки <tex>x^m = (x_1,\ldots,x_m),\; x_i \in \mathbb{R};\;\; y^n = (y_1,\ldots,y_n),\; y_i \in \mathbb{R};\; m \le n,</tex> в противном случае следует поменять выборки местами.  | ||
| - | '''  | + | '''Дополнительное предположение:''' обе выборки [[простая выборка|простые]], объединённая выборка [[независимая выборка|независима]];   | 
| - | + | ||
'''[[Нулевая гипотеза]]''' <tex>H_0:\; </tex> обе выборки имеют одинаковое распеределение, то есть извлечены из одной генеральной совокупности. Следствием этого является равенство средних.  | '''[[Нулевая гипотеза]]''' <tex>H_0:\; </tex> обе выборки имеют одинаковое распеределение, то есть извлечены из одной генеральной совокупности. Следствием этого является равенство средних.  | ||
| - | '''  | + | '''Вычисление статистики критерия:'''  | 
# Построить общий вариационный ряд объединённой выборки <tex>x^{(1)} \leq \cdots \leq x^{(m+n)}</tex> и найти ранги <tex>r(x_i),\; r(y_i)</tex> всех элементов обеих выборок в общем вариационном ряду.   | # Построить общий вариационный ряд объединённой выборки <tex>x^{(1)} \leq \cdots \leq x^{(m+n)}</tex> и найти ранги <tex>r(x_i),\; r(y_i)</tex> всех элементов обеих выборок в общем вариационном ряду.   | ||
# Рассчитать суммы рангов, соответствующих обеим выборкам:  | # Рассчитать суммы рангов, соответствующих обеим выборкам:  | ||
| - | : <tex>R_x = \sum_{i=1}^m r(x_i);</tex>  | + | #:<tex>R_x = \sum_{i=1}^m r(x_i);</tex>  | 
| - | : <tex>R_y = \sum_{i=1}^n r(y_i);</tex>  | + | #:<tex>R_y = \sum_{i=1}^n r(y_i);</tex>  | 
# Если размеры выборок совпадают (<tex>m=n</tex>), то значение статистики <tex>W</tex> будет равняется одной из сумм рангов <tex>R_x</tex> или <tex>R_y</tex> (любой).  | # Если размеры выборок совпадают (<tex>m=n</tex>), то значение статистики <tex>W</tex> будет равняется одной из сумм рангов <tex>R_x</tex> или <tex>R_y</tex> (любой).  | ||
'''Критерий''' (при [[уровень значимости|уровне значимости]] <tex>\alpha</tex>):  | '''Критерий''' (при [[уровень значимости|уровне значимости]] <tex>\alpha</tex>):  | ||
| - | + | Против альтернативы <tex>H_1:\;</tex> ????  | |
| - | :если <tex>W \notin \left[ W_{\alpha/2},\,W_{1-\alpha/2} \right]</tex> , то нулевая гипотеза отвергается. Здесь <tex>W_{\alpha}</tex>  есть <tex>\alpha</tex>-квантиль табличного распределения Уилкоксона с параметрами <tex>m,\,n</tex>.   | + | :если <tex>W \notin \left[ W_{\alpha/2},\,W_{1-\alpha/2} \right]</tex> , то нулевая гипотеза отвергается. Здесь <tex>W_{\alpha}</tex>  есть <tex>\alpha</tex>-[[квантиль]] табличного распределения Уилкоксона с параметрами <tex>m,\,n</tex>.   | 
'''Асимптотический критерий''':  | '''Асимптотический критерий''':  | ||
| Строка 29: | Строка 28: | ||
Рассмотрим нормированную и центрированную статистика Уилкоксона:  | Рассмотрим нормированную и центрированную статистика Уилкоксона:  | ||
| - | :<tex>  | + | :<tex>\tilde W = \frac{2W - m(m + n + 1) + 1}{sqrt{\frac{mn(m + n + 1)}{3}}}</tex>;  | 
| - | <tex>  | + | <tex>\tilde W</tex> асимптотически имеет стандартное нормальное распределение. Нулевая гипотеза (против альтернативы <tex>H_1</tex>) отвергается, если <tex> |\tilde W| > \Phi_{1-\alpha/2} </tex>. <tex>\Phi_{\alpha}</tex> есть <tex>\alpha</tex>-[[квантиль]] стандартного нормального распределения.   | 
| - | + | Приближение можно использовать, если размер хотя бы одной из выборок превышает 25. Если размеры выборок равны, то данная аппроксимация хорошо работает до <tex>m = n = 8</tex>.  | |
| - | :  | + | При наличии связок необходимо учесть их с помощью поправки. Выражение под корнем в знаменателе необходимо заменить на следующее:  | 
| - | :  | + | :<tex>\frac{mn}{12}(m + n + 1) - \frac{\sum^k_{i = 1}t_i(t_i^2-1)}{(m + n)(m + n + 1)},</tex>  | 
| + | :где <tex>k</tex> - количество только тех связок, в которые входят ранги как одной, так и другой выборок, <tex>t_1, \ldots, t_k</tex> - их размеры.  | ||
== Свойства и границы применимости критерия ==  | == Свойства и границы применимости критерия ==  | ||
Версия 23:05, 11 декабря 2009
Критерий Уилкоксона двухвыборочный — непараметрический статистический критерий, используемый для проверки гипотезы о равенстве средних двух независимых выборок. Выборки взяты из закона распределения, отличного от нормального, либо данные измерены с использованием нечисловой шкалы. Метод следует использовать, когда нет информации о дисперсии выборок. В случае равных дисперсий следует применять более мощный U-критерий Манна-Уитни. Имеется аналог критерия Уилкоксона для связанных повторных наблюдений.
Содержание | 
Пример задачи
Описание критерия
Заданы две выборки  в противном случае следует поменять выборки местами.
Дополнительное предположение: обе выборки простые, объединённая выборка независима;
Нулевая гипотеза  обе выборки имеют одинаковое распеределение, то есть извлечены из одной генеральной совокупности. Следствием этого является равенство средних.
Вычисление статистики критерия:
-  Построить общий вариационный ряд объединённой выборки 
и найти ранги
всех элементов обеих выборок в общем вариационном ряду.
 -  Рассчитать суммы рангов, соответствующих обеим выборкам:
 -  Если размеры выборок совпадают (
), то значение статистики
будет равняется одной из сумм рангов
или
(любой).
 
Критерий (при уровне значимости ):
Против альтернативы  ????
- если 
, то нулевая гипотеза отвергается. Здесь
есть
-квантиль табличного распределения Уилкоксона с параметрами
.
 
Асимптотический критерий:
Рассмотрим нормированную и центрированную статистика Уилкоксона:
;
 асимптотически имеет стандартное нормальное распределение. Нулевая гипотеза (против альтернативы 
) отвергается, если 
. 
 есть 
-квантиль стандартного нормального распределения. 
Приближение можно использовать, если размер хотя бы одной из выборок превышает 25. Если размеры выборок равны, то данная аппроксимация хорошо работает до .
При наличии связок необходимо учесть их с помощью поправки. Выражение под корнем в знаменателе необходимо заменить на следующее:
- где 
- количество только тех связок, в которые входят ранги как одной, так и другой выборок,
- их размеры.
 
Свойства и границы применимости критерия
История
Литература
- Лагутин М. Б. Наглядная математическая статистика. В двух томах. — М.: П-центр, 2003. — 204-209 с.
 - Лапач С. Н. , Чубенко А. В., Бабич П. Н. Статистика в науке и бизнесе. — Киев: Морион, 2002. — 160-164 с.
 
Ссылки
- Проверка статистических гипотез — о методологии проверки статистических гипотез.
 

