Метод Бенджамини-Хохберга
Материал из MachineLearning.
 (→Ссылки)  | 
				|||
| Строка 1: | Строка 1: | ||
| - | '''Метод Бенджамини-Хохберга''' — один из методов контроля ожидаемой доли ложных отклонений гипотез ([[FDR]]) который утверждает, что при определенных ограничениях на статистики гипотез <tex> T_i</tex> для достижения контроля FDR на уровне  <tex>\alpha</tex> достаточно, чтобы отвергались гипотезы <tex>H_i</tex>, для которых <tex>p_i \le \frac{i\alpha}{m}</tex>, где <tex>m</tex> — количество гипотез.  | + | '''Метод Бенджамини-Хохберга'''<ref name="mbh1"> Benjamini, Yoav; Hochberg, Yosef (1995). [http://www.math.tau.ac.il/~ybenja/MyPapers/benjamini_hochberg1995.pdf Controlling the false discovery rate: a practical and powerful approach to multiple testing]. [http://en.wikipedia.org/wiki/Journal_of_the_Royal_Statistical_Society], Series B 57 (1): 289–300.</ref><ref name="mbh2"> Hochberg, Y.; Benjamini, Y. (1990). [http://onlinelibrary.wiley.com/doi/10.1002/sim.4780090710/abstract More powerful procedures for multiple significance testing]. Statistics in Medicine 9 (7): 811–818.</ref> — один из методов контроля ожидаемой доли ложных отклонений гипотез ([[FDR]]) который утверждает, что при определенных ограничениях на статистики гипотез <tex> T_i</tex> для достижения контроля FDR на уровне  <tex>\alpha</tex> достаточно, чтобы отвергались гипотезы <tex>H_i</tex>, для которых <tex>p_i \le \frac{i\alpha}{m}</tex>, где <tex>m</tex> — количество гипотез.  | 
== Определение ==  | == Определение ==  | ||
| Строка 20: | Строка 20: | ||
===Ограничения===  | ===Ограничения===  | ||
| - | Статистики <tex>T_i</tex> независимы или выполняется следующее свойство (PRDS on <tex>T_i,\: i \in M_0</tex>):  | + | Статистики <tex>T_i</tex> независимы или выполняется следующее свойство ([PRDS on <tex>T_i,\: i \in M_0</tex>):  | 
::<tex>\operator{P}(X\in D|T_i=x) </tex> не убывает по <tex>x\:\forall i\in M_0</tex>,  | ::<tex>\operator{P}(X\in D|T_i=x) </tex> не убывает по <tex>x\:\forall i\in M_0</tex>,  | ||
где <tex>M_0</tex> - множество индексов верных гипотез, <tex>D</tex> - произвольное возрастающее множество, то есть, такое, что из <tex>x\in D</tex> и <tex>y \geq x</tex> следует <tex>y\in D</tex>  | где <tex>M_0</tex> - множество индексов верных гипотез, <tex>D</tex> - произвольное возрастающее множество, то есть, такое, что из <tex>x\in D</tex> и <tex>y \geq x</tex> следует <tex>y\in D</tex>  | ||
| Строка 91: | Строка 91: | ||
== Реализации ==  | == Реализации ==  | ||
| - | * MATLAB: [http://www.mathworks.com/matlabcentral/fileexchange/27418-benjamini-hochbergyekutieli-procedure-for-controlling-false-discovery-rate   | + | * MATLAB: Benjamini and Hochberg/Yekutieli Procedure for Controlling False Discovery Rate <ref name="bhypcfdr"> Benjamini and Hochberg/Yekutieli Procedure for Controlling False Discovery Rate [http://www.mathworks.com/matlabcentral/fileexchange/27418-benjamini-hochbergyekutieli-procedure-for-controlling-false-discovery-rate ]</ref> - реализация на MathWorks.com  | 
| - | * R: функция   | + | * R: функция p.adjust<ref name="padj"> http://www.inside-r.org/r-doc/stats/p.adjust</ref> (с параметром <code>method="BH"</code>) из стандартного пакета <code>stats</code> позволяет получить модифицированные уровни значимости с учетом поправки метода Бенджамини-Хохберга.  | 
== Ссылки ==  | == Ссылки ==  | ||
| - | + | <references />  | |
| - | + | ||
| - | + | ||
| - | + | ||
== См. также ==  | == См. также ==  | ||
Версия 13:00, 6 февраля 2014
Метод Бенджамини-Хохберга[1][1] — один из методов контроля ожидаемой доли ложных отклонений гипотез (FDR) который утверждает, что при определенных ограничениях на статистики гипотез  для достижения контроля FDR на уровне  
 достаточно, чтобы отвергались гипотезы 
, для которых 
, где 
 — количество гипотез.
Содержание | 
Определение
Пусть  — семейство гипотез, а 
 — соответствующие им достигаемые уровни значимости. Обозначим за 
 - число отвергнутых гипотез, а за 
 - число неверно отвергнутых гипотез, т.е. число ошибок первого рода.
Ожидаемая доля ложных отклонений гипотез, или FDR, определяется следующим образом
Контроль над FDR на уровне  означает, что
Метод Бенджамини-Хохберга
Это нисходящая процедура(по аналогии с методом Холма и методом Шидака-Холма) со следующими уровнями значимости
Пусть  — уровни значимости 
, упорядоченные по неубыванию, 
 — соответствующие 
 гипотезы. Процедура метода Бенджамини-Хохберга определена следующим образом.
-  Шаг 1. Если 
, принять гипотезы
и остановиться. Иначе, если
, отвергнуть гипотезу
и продолжить проверку оставшихся гипотез на уровне значимости
.
 -  Шаг 2. Если 
, принять гипотезы
и остановиться. Иначе, если
, отвергнуть гипотезу
и продолжить проверку оставшихся гипотез на уровне значимости
.
 - И т.д.
 
Метод обеспечивает контроль над FDR на уровне  при нижеследующих условиях.
Ограничения
Статистики  независимы или выполняется следующее свойство ([PRDS on 
):
не убывает по
,
где  - множество индексов верных гипотез, 
 - произвольное возрастающее множество, то есть, такое, что из 
 и 
 следует 
Альтернативная постановка
Переходим к модифицированным достигаемым уровням значимости:
Пример
для проверки используем одновыборочный критерий Стьюдента.
С поправкой Холма(метод Холма):
Верных Неверных Всего Принятых 150 24 174 Отвергнутых 0 26 26 Всего 150 50 200 
С методом Бенджамини-Хохберга:
Верных Неверных Всего Принятых 148 4 152 Отвергнутых 2 46 48 Всего 150 50 200 
Реализации
- MATLAB: Benjamini and Hochberg/Yekutieli Procedure for Controlling False Discovery Rate [1] - реализация на MathWorks.com
 -  R: функция p.adjust[1] (с параметром 
method="BH") из стандартного пакетаstatsпозволяет получить модифицированные уровни значимости с учетом поправки метода Бенджамини-Хохберга. 
Ссылки

