Робастное оценивание
Материал из MachineLearning.
| Строка 64: | Строка 64: | ||
=== Оценки, получаемые в ранговых критериях (R-оценки)===    | === Оценки, получаемые в ранговых критериях (R-оценки)===    | ||
| - | Рассмотрим двухвыборочный ранговый критерий для определения параметра сдвига: пусть <tex>x_1,\;\;\dots, x_m</tex> и <tex>y_1,\;\;\dots, y_n</tex> суть две независимые выборки с распределениями <tex>F(x)</tex> и <tex>G(x)=F(x-\Delta)</tex>соответственно.Объединим эти выборку в одну выборку объема <tex>m+n</tex> <tex>R_i</tex> <tex>x_i</tex>  <tex>a_i=a(i)\,,\;\; 1 \le i \le m+n</tex>   | + | Рассмотрим двухвыборочный ранговый критерий для определения параметра сдвига: пусть <tex>x_1,\;\;\dots, x_m</tex> и <tex>y_1,\;\;\dots, y_n</tex> суть две независимые выборки с распределениями <tex>F(x)</tex> и <tex>G(x)=F(x-\Delta)</tex>соответственно.Объединим эти выборку в одну выборку объема <tex>m+n</tex>.Пусть  <tex>R_i</tex> есть ранг наблюдения <tex>x_i</tex> в объединенной выборке. Зададим веса  <tex>a_i=a(i)\,,\;\; 1 \le i \le m+n</tex>. Критерий для проверки гипотезы <tex>\Delta=0</tex> при альтернативе  <tex>\Delta > 0</tex> построим на основе статистики  | 
::<tex>S_{m,n}=\frac1m\sum_{i=1}^m a(R_i)</tex>  | ::<tex>S_{m,n}=\frac1m\sum_{i=1}^m a(R_i)</tex>  | ||
| - | <tex>a_i</tex> <tex>J</tex>  | + | Как правило, мы полагаем, что весовые коэффициенты <tex>a_i</tex> получаются при помощи некоторой функции <tex>J</tex> по формуле  | 
::<tex>a_i=J\left(\frac{i}{m+n+i}\right)</tex>   | ::<tex>a_i=J\left(\frac{i}{m+n+i}\right)</tex>   | ||
| - | ::<tex>a_i=(m+n)\;\int_{(i-1)/(m+n)}^{i/(m+n)}\; {J(s)ds}</tex>   | + | В действительности предпочитают работать со следующим вариантов вычисления  | 
| + | |||
| + | ::<tex>a_i=(m+n)\;\int_{(i-1)/(m+n)}^{i/(m+n)}\; {J(s)ds}</tex>.   | ||
== Вычисление робастных оценок ==  | == Вычисление робастных оценок ==  | ||
Версия 22:20, 5 января 2010
Содержание | 
Введение
На протяжении последних десятилетий росло понимание того факта, что некоторые наиболее распространенные статистические процедуры (в том числе те, которые оптимальны в предположении о нормальности распределения) весьма чувствительны к довольно малым отклонениям от предположений. Вот почему теперь появились иные процедуры - "робастные" (от англ. robust - крепкий,здоровый, дюжий).
Мы будем понимать под термином робастность нечувствительность к малым отклонениям от предположений. Процедура робастна, если малые отклонения от предположенной модели должны ухудшать качество процедуры (например, асимптотика дисперсии или уровень значимости и мощность критерия) должны быть близки к номинальным величинам, вычисленным для принятой модели.
Рассмотрим робастность по распределению, т.е. ситуации, в которых истинная функция распределения незначительно отличается от предполагаемой в модели (как правило, гауссовской функции распределения). Это не только наиболее важный случай, но и наиболее полно изученный. Гораздо меньше известно о том, что происходит в тех ситуациях, когда несколько нарушаются прочие стандартные допущения статистики, и том, какие меры защиты должны предусматриваться в подобных случаях.
Основные типы оценок
Введем оценки трех основных типов (),буквы  
 отвечают соответственно оценкам типа максимального правдоподобия, линейным комбинациям порядковых статистик и оценкам, получаемых в ранговых критериях.
Особое значение имеют оценки, это наиболее гибкие оценки - они допускают прямое обобщение на многопараметрический случай.
Оценки типа максимального правдоподобия (M-оценки)
Всякая оценка , определяемая как решение экстремальной задачи на минимум вида
или как решение неявного уравнения
,
где  - произвольная функция, 
, называется 
оценкой (или оценкой типа максимального правдоподобия); заметим, что если выбрать в качестве функции 
 
, то мы получим обычную оценку максимального правдоподобия.
В частности, нас будут интересовать оценки сдвига
или
.
Последнее уравнение можно записать в эквивалентном виде
,
где
Тогда мы можем представить оценку  в форме взвешенного среднего
с весовыми коэффициентами , зависящими от выборки.
Оценки типа максимального правдоподобия (L-оценки)
Рассмотрим статистику, которая представляет собой линейную комбинацию порядковых статистик или, в более общей постановке, значений на некоторой функции :
Предположим, что весовые коэффициенты порождаются при помощи (знакопеременной) меры  на интервале (0,1):
(Такой выбор коэффициентов оставляет общую массу без изменений, т.е. , и обеспечивает симметричность коэффициентов, если мера 
 симметрична относительно точки 
.)
В рассматриваевом случае оценка  получается при помощи функционала
.
Здесь под функцией, обратной к ффункции распределения , понимается функция
Оценки, получаемые в ранговых критериях (R-оценки)
Рассмотрим двухвыборочный ранговый критерий для определения параметра сдвига: пусть  и 
 суть две независимые выборки с распределениями 
 и 
соответственно.Объединим эти выборку в одну выборку объема 
.Пусть  
 есть ранг наблюдения 
 в объединенной выборке. Зададим веса  
. Критерий для проверки гипотезы 
 при альтернативе  
 построим на основе статистики
Как правило, мы полагаем, что весовые коэффициенты  получаются при помощи некоторой функции 
 по формуле
В действительности предпочитают работать со следующим вариантов вычисления
.
Вычисление робастных оценок
Рассмотрим пример. Для оценки  неизвестных параметров 
 используется 
 наблюдений 
, причем они связаны между собой следующим неравенством 
, где элементы матрицы 
 суть известные коэффициенты, а 
 - вектор независимых случайных величин,имеющих (приблизительное)одинаковые функции распределения.   
Тогда решение сводится к следующему: 
Если матрица  - матрица полного ранга 
, то 
,
а оценки 
 будут высиляться по следующей формуле 
, 
где 
, далее 
 - матрица подгонки.
Допустим, что мы получили значения  и остатки 
.
Пусть  - некоторая оценка стандартной ошибки наблюдений 
 (или стандартной ошибки остатков 
)
Метрически винзоризуем наблюдения , заменяя их псевдонаблюдениями  
:
Константа  регулирует степень робастности, её значения хорошо выбирать из промежутка от 1 до 2, например, чаще всего 
.
Затем по псевдонаблюдениям  вычисляются новые значения 
 подгонки (и новые 
).
Действия повторяются до достижения сходимости.
Если все наблюдения совершенно точны, то классическая оценка дисперсии отдельного наблюдения имеет вид
,
и стандартную ошибку остатка 
 можно в этом случае оценивать величиной 
, где 
 есть 
-й диагональный элемент матрицы 
.
При использовании вместо остатков  модифицированных остатков  
, как нетрудно видеть, получается заниженная оценка масштаба. Появившееся смещение можно ликвидировать, полагая (в первом приближении)
,
где  - число наблюдений без числа параметров, 
 - число неизменных наблюдений (
).
Очевидно, что эта процедура сводит на нет влияние выделяющихся наблюдений.
Литература
- Хьюбер П. Робастность в статистике. — М.: Мир, 1984.
 
Ссылки
- Робастность в статистике.
 - Робастность статистических процедур.
 - Публикации по робастным методам оценивания параметров и проверке статистических гипотез на сайте профессора НГТУ Лемешко Б.Ю..
 - Robust statistics.
 
См. также
|   |  Данная статья является непроверенным учебным заданием.
 До указанного срока статья не должна редактироваться другими участниками проекта MachineLearning.ru. По его окончании любой участник вправе исправить данную статью по своему усмотрению и удалить данное предупреждение, выводимое с помощью шаблона {{Задание}}. См. также методические указания по использованию Ресурса MachineLearning.ru в учебном процессе.  | 

