Непараметрическая регрессия: ядерное сглаживание
Материал из MachineLearning.
|   |  Статья плохо доработана. | 
Ядерное сглаживание - один из простейших видов непараметрической регрессии.
Содержание | 
Постановка задачи
- Решается задача восстановления регрессии. Задано пространство объектов 
и множество возможных
 
ответов . Существует неизвестная целевая зависимость 
, 
значения которой известны только на объектах обучающей выборки 
. 
Требуется построить алгоритм 
, аппроксимирующий целевую зависимость 
.
Принцип
Принцип, используйщий идейно простой подход к представлению последовательности весов  состоит в описании формы весовой 
функции 
 посредством функции плотности со скалярным параметром, который регулирует размер и форму весов около х. 
Эту функцию формы  принято называть ядром 
.
Полученные таким образом веса далее используются для представления величины  в виде взвешенной суммы значений 
 обучающей выборки.
Описание метода
Определение ядра
Ядро — это непрерывная ограниченная симметричная вещественная функция  с единичным интегралом
Последовательность весов
Последовательность весов для ядерных оценок (для одномерного ) определяется как ::
,
где
,
a
представляет собой ядро с параметром . Этот параметр принято называть шириной окна. Подчеркнув зависимость 
 от объема выборки 
, условимся сокращенно обозначать последовательность весов 
.
Функция ядра
Функция  является ядерной оценкой плотности Розенблата — Парзена (Rosenblatt, 1956; Parzen, 1962) для (маргинальной) плотности 
переменной 
. Данный вид ядерных весов 
 был предложен в работах (Nadaraya, 1964) и (Watson, 1964). Как следствие, оценка 
ожидаемой величины восстанавливаемой зависимости 
:
часто называют оценкой Надарая — Ватсона. 
Ширина окна определяет насколько быстро убывают веса  по мере удаления объектов 
 от 
. 
Характер убывания определяется видом ядра 
. 
Нормализация весов 
 гарантирует, что сумма весов равна единице. 
Замечание. При ряде условий имеет место сходимость по вероятности данной оценки к .
Пример функции ядра
На практике используется несколько видов ядерных функций. Чаще всего используется квартическая ядерная функция
.
Также используется ядро Епанечникова, обладающее некоторыми свойствами оптимальности [Хардле В п4.5]; это функция параболического типа (Epanechnikov, 1969; Bartlett, 1963):
.
Другими примерами являются ядро Гаусса,
,
треугольное ядро
,
и прямоугольное ядро
.
Замечание. Точность восстанавливаемой зависимости мало зависит от выбора ядра.
Ядро определяет степень гладкости функции .
Зависимость от ширины окна
Выбор окна решающим образом влияет на точность восстанавливаемой зависимости.
При чересчур малых значениях  кривая 
 стремится пройти через каждую точку выборки, остро реагируя на шумы и претерпевая резкие
скачки, поскольку в этом случае оценка опирается только на небольшое число наблюдений из узкой окрестности точки 
.
Наоборот, если ширина окна велика, функция чрезмерно сглаживается и в пределе при 
 вырождается в константу -- усреднённое
значение величин 
. В этом случае сглаженная функция не даёт возможности определить характерные особенности искомой зависимости 
.
Литература
- Хардле В. Прикладная непараметрическая регрессия. — 1989.
 - Воронцов К.В. Лекции по алгоритмам восстановления регрессии. — 2007.
 - Лагутин М.Б. Наглядная математическая статистика. — 2009.
 
См. также
|   |  Данная статья является непроверенным учебным заданием.
 До указанного срока статья не должна редактироваться другими участниками проекта MachineLearning.ru. По его окончании любой участник вправе исправить данную статью по своему усмотрению и удалить данное предупреждение, выводимое с помощью шаблона {{Задание}}. См. также методические указания по использованию Ресурса MachineLearning.ru в учебном процессе.  | 

