Использование метода Белсли для прореживания признаков
Материал из MachineLearning.
 (→Вычислительный эксперимент)  | 
				 (→Пример 2)  | 
			||
| Строка 57: | Строка 57: | ||
===Пример 2===  | ===Пример 2===  | ||
Используются реальные данные  | Используются реальные данные  | ||
| + | |||
| + | == Исходный код ==  | ||
| + | |||
| + | == Смотри также ==  | ||
| + | * [[Анализ мультиколлинеарности (пример)]]  | ||
| + | * [[Мультиколлинеарность]]  | ||
| + | * [[Метод наименьших квадратов]]  | ||
| + | * [[Линейная регрессия (пример)]]  | ||
| + | * [[Сингулярное разложение]]  | ||
| + | * [[Метод Белсли]]  | ||
| + | |||
| + | == Литература ==  | ||
| + | * В.В. Стрижов Методы выбора регрессионных моделей  | ||
| + | * Gianfranco Galmacci, Collinearity Detection in Linear Regression. Computational Economics 9:215-227, 1996.   | ||
| + | {{ЗаданиеВыполнено|Литвинов Игорь|В.В.Стрижов|осень 2011|e1ekt|strijov}}  | ||
| + | [[Категория:Практика и вычислительные эксперименты]]  | ||
| + | [[Категория:Линейная регрессия]]  | ||
Версия 00:15, 16 ноября 2011
Содержание | 
Постановка задачи
Задана выборка  признаков и зависимой переменной. Рассматривается линейная регрессионная модель вида:
Предполагается, что вектор регрессионных невязок имеет нулевое математическое ожидание и дисперсию 
.
С помощью метода Белсли требуется выявить мультиколлинеарность признаков и устранить её.
Описание алгоритма
Методика Belsley, Kuh, и Welsch (BKW)
Согласно Белсли для выделения мультиколлинеарных зависимостей с матрицей  производят сингулярное разложение
 - диагональная с неотрицательными элементами
 называющимися сингулярными числами 
.
Далее вычисляются два параметра, по которым будет будет определяться зависимость 
1) Индексы обусловленности это:
, 
. 
 Наибольший из индексов обусловленности -- это число обусловленности матрицы . Большое значение 
 указывает на зависимость близкую к линейной между признаками и чем больше 
 тем сильнее зависимость.
2) Дисперсионные доли.
Дисперсионные доли находятся следующим образом: из сингулярного разложения ковариационная матрица метода наименьших квадратов может быть записана как:
 
Таким образом дисперсия -го регрессионного коэффициента 
 это 
-й диагональный элемент 
 
где. 
Определим -е дисперсионное соотношение как долю дисперсии 
-го регрессионного коэффициента связанная с 
-м компонентом его разложения. Доля считается как:
 
, 
, 
 
Дисперсионное соотношение: 
 
, 
 
 
Наличие мультиколлинеарности определяется по таблице. 
| Индекс обусловленности | ||||
|---|---|---|---|---|
|   |   |   | ... |   | 
|   |   |   | ... |   | 
|   |   |   |   | |
|   |   |   | ... |   | 
Большие величины  означают, чтовозможно есть зависимость между признаками.
Большие значения  в соответствующих строках относятся к признакам, между которыми эта зависимость существует.
Вычислительный эксперимент
Пример 1
В эксперименте используются модельные данные, для которых вычисляется матрица Belsley в зависимоти от параметра определяющего степень коллинеарности между признаками.  
Используются два ортогональных признака , 
 и третий признак 
 зависящий от параметра 
. При 
 все признаки ортогональны, при увеличении 
 зависимый признак 
 приближается к 
, вплоть до полной коллинеарности при 
. 
Зависимость индексов обусловленности 
 от 
:
Пример 2
Используются реальные данные
Исходный код
Смотри также
- Анализ мультиколлинеарности (пример)
 - Мультиколлинеарность
 - Метод наименьших квадратов
 - Линейная регрессия (пример)
 - Сингулярное разложение
 - Метод Белсли
 
Литература
- В.В. Стрижов Методы выбора регрессионных моделей
 - Gianfranco Galmacci, Collinearity Detection in Linear Regression. Computational Economics 9:215-227, 1996.
 
|   |  Данная статья была создана в рамках учебного задания.
 
 См. также методические указания по использованию Ресурса MachineLearning.ru в учебном процессе.  | 

