Уровень значимости
Материал из MachineLearning.
м  (уточнение)  | 
				 (→Вычисление пи-величины)  | 
			||
| Строка 32: | Строка 32: | ||
'''[[Достигаемый уровень значимости]]''' или '''[[пи-величина]]''' (p-value) — это наименьшая величина уровня значимости,   | '''[[Достигаемый уровень значимости]]''' или '''[[пи-величина]]''' (p-value) — это наименьшая величина уровня значимости,   | ||
при которой нулевая гипотеза отвергается для данного значения статистики критерия <tex>T</tex>.   | при которой нулевая гипотеза отвергается для данного значения статистики критерия <tex>T</tex>.   | ||
| - | ::<tex>  | + | ::<tex>p(T) = \min \{ \alpha:\: T\in\Omega_\alpha \},</tex>   | 
где   | где   | ||
<tex>\Omega_\alpha</tex> — критическая область критерия.   | <tex>\Omega_\alpha</tex> — критическая область критерия.   | ||
Другая интерпретация:   | Другая интерпретация:   | ||
| - | [[достигаемый уровень значимости]] или ''пи-величина'' <tex>  | + | [[достигаемый уровень значимости]] или ''пи-величина'' <tex>p(T)</tex> — это вероятность, с которой (при условии истинности нулевой гипотезы) могла бы реализоваться наблюдаемая выборка, или любая другая выборка с ещё менее вероятным значением статистики <tex>T</tex>.  | 
| - | Случайная величина <tex>  | + | Случайная величина <tex>p(T(x^m))</tex> имеет равномерное распределение.  | 
| - | Фактически, функция <tex>  | + | Фактически, функция <tex>p(T)</tex> приводит значение статистики критерия <tex>T</tex> к шкале вероятности.   | 
| - | Маловероятным значениям (хвостам распределения) статистики <tex>T</tex> соотвествуют значения <tex>  | + | Маловероятным значениям (хвостам распределения) статистики <tex>T</tex> соотвествуют значения <tex>p(T)</tex>, близкие к нулю или к единице.   | 
| - | Вычислив значение <tex>  | + | Вычислив значение <tex>p(T(x^m))</tex> на заданной выборке <tex>x^m</tex>,   | 
статистик имеет возможность решить,   | статистик имеет возможность решить,   | ||
является ли это значение достаточно малым, чтобы отвергнуть нулевую гипотезу.   | является ли это значение достаточно малым, чтобы отвергнуть нулевую гипотезу.   | ||
Текущая версия
 
  | 
Уровень значимости статистического теста — допустимая для данной задачи вероятность ошибки первого рода (ложноположительного решения, false positive), то есть вероятность отклонить нулевую гипотезу, когда на самом деле она верна.
Другая интерпретация: уровень значимости — это такое (достаточно малое) значение вероятности события, при котором событие уже можно считать неслучайным.
Уровень значимости обычно обозначают греческой буквой  (альфа). 
Стандартная методика проверки статистических гипотез
В стандартной методике проверки статистических гипотез уровень значимости фиксируется заранее, до того, как становится известной выборка 
.
Чрезмерное уменьшение уровня значимости (вероятности ошибки первого рода)  может привести к увеличению вероятности ошибки второго рода, то есть вероятности принять нулевую гипотезу, когда на самом деле она не верна (это называется ложноотрицательным решением, false negative).
Вероятность ошибки второго рода 
 связана с мощностью критерия 
 простым соотношением  
. 
Выбор уровня значимости требует компромисса между значимостью и мощностью или 
(что то же самое, но другими словами) 
между вероятностями ошибок первого и второго рода.
Обычно рекомендуется выбирать уровень значимости из априорных соображений.
Однако на практике не вполне ясно, какими именно соображениями надо руководствоваться, 
и выбор часто сводится к назначению одного из популярных вариантов 
. 
В докомпьютерную эпоху эта стандартизация позволяла сократить объём справочных статистических таблиц.
Теперь нет никаких специальных причин для выбора именно этих значений. 
Существует две альтернативные методики, не требующие априорного назначения .
Вычисление пи-величины
Достигаемый уровень значимости или пи-величина (p-value) — это наименьшая величина уровня значимости, 
при которой нулевая гипотеза отвергается для данного значения статистики критерия . 
где 
 — критическая область критерия. 
Другая интерпретация: 
достигаемый уровень значимости или пи-величина  — это вероятность, с которой (при условии истинности нулевой гипотезы) могла бы реализоваться наблюдаемая выборка, или любая другая выборка с ещё менее вероятным значением статистики 
.
Случайная величина  имеет равномерное распределение.
Фактически, функция 
 приводит значение статистики критерия 
 к шкале вероятности. 
Маловероятным значениям (хвостам распределения) статистики 
 соотвествуют значения 
, близкие к нулю или к единице. 
Вычислив значение  на заданной выборке 
, 
статистик имеет возможность решить, 
является ли это значение достаточно малым, чтобы отвергнуть нулевую гипотезу. 
Данная методика является более гибкой, чем стандартная. 
В частности, она допускает «нестандартное решение» — продолжить наблюдения, увеличивая объём выборки, если оценка вероятности ошибки первого рода попадает в зону неуверенности, скажем, в отрезок 
.
Вычисление ROC-кривой
ROC-кривая (receiver operating characteristic) — это зависимость мощности  от уровня значимости 
.
Методика предполагает, что статистик укажет подходящую точку на ROC-кривой, которая соответствует компромиссу между вероятностями ошибок I и II рода.
Литература
- Кобзарь А. И. Прикладная математическая статистика. Справочник для инженеров и научных работников. — М.: Физматлит, 2006.
 - Цейтлин Н. А. Из опыта аналитического статистика. — М.: Солар, 2006. — 905 с.
 - Алимов Ю. И. Альтернатива методу математической статистики. — М.: Знание, 1980.
 
См. также
- Проверка статистических гипотез — о стандартной методике проверки статистических гипотез.
 - Достигаемый уровень значимости, синонимы: пи-величина, p-Value.
 

