Фактор инфляции дисперсии

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
Строка 5: Строка 5:
Пусть задана выборка <tex>D = \{ y_i,\mathbf{x}_i\}_{i=1}^n</tex> откликов и признаков. Рассматривается множество [[Линейная регрессия (пример)|линейных регрессионных моделей]] вида:
Пусть задана выборка <tex>D = \{ y_i,\mathbf{x}_i\}_{i=1}^n</tex> откликов и признаков. Рассматривается множество [[Линейная регрессия (пример)|линейных регрессионных моделей]] вида:
-
<tex>y_i=\sum_{j=1}^m w_i x_{ij} + \varepsilon_i, i=1,\dots,n</tex>
+
<tex>y_i=\sum_{j=1}^m w_j x_{ij} + \varepsilon_i, i=1,\dots,n</tex>
Предполагается, что вектор регрессионных невязок имеет нулевое математическое ожидание и дисперсию <tex>\sigma^2</tex>. В этом случае дисперсия <tex>w_i</tex>:
Предполагается, что вектор регрессионных невязок имеет нулевое математическое ожидание и дисперсию <tex>\sigma^2</tex>. В этом случае дисперсия <tex>w_i</tex>:
Строка 14: Строка 14:
<tex>VIF_j=\frac{1}{1-R_j^2},</tex>
<tex>VIF_j=\frac{1}{1-R_j^2},</tex>
 +
 +
где <tex>R</tex> — [[коэффициент детерминации]]:
<tex>R^2 \equiv 1-{\sum_{j=1}^n (y_j - \hat{y}_j)^2 \over \sum_{j=1}^n (y_j-\bar{y})^2},\.</tex>
<tex>R^2 \equiv 1-{\sum_{j=1}^n (y_j - \hat{y}_j)^2 \over \sum_{j=1}^n (y_j-\bar{y})^2},\.</tex>
Равенство единице фактора инфляции дисперсии говорит об ортогональности вектора значений признака остальным. Если значение <tex>VIF_j</tex> велико, то <tex>1-R^2_j</tex> — мало, то есть <tex>R_j^2</tex> близко к 1. Большие значения фактора инфляции дисперсии соответствуют почти линейной зависимости j-го столбца от остальных.
Равенство единице фактора инфляции дисперсии говорит об ортогональности вектора значений признака остальным. Если значение <tex>VIF_j</tex> велико, то <tex>1-R^2_j</tex> — мало, то есть <tex>R_j^2</tex> близко к 1. Большие значения фактора инфляции дисперсии соответствуют почти линейной зависимости j-го столбца от остальных.
 +
 +
==Ссылки==
 +
 +
[http://en.wikipedia.org/wiki/Variance_Inflation_Factor]
==Литература==
==Литература==
Строка 27: Строка 33:
|страницы = 487
|страницы = 487
}}
}}
 +
 +
[[Категория:Линейная регрессия]]

Версия 20:50, 4 марта 2010

В задаче восстановления регрессии фактор инфляции дисперсии (VIF) — мера мультиколлинеарности . Он позволяет оценить увеличение дисперсии заданного коэффициента регрессии, происходящее из-за высокой корреляции данных.

Определение

Пусть задана выборка D = \{ y_i,\mathbf{x}_i\}_{i=1}^n откликов и признаков. Рассматривается множество линейных регрессионных моделей вида:

y_i=\sum_{j=1}^m w_j x_{ij} + \varepsilon_i, i=1,\dots,n

Предполагается, что вектор регрессионных невязок имеет нулевое математическое ожидание и дисперсию \sigma^2. В этом случае дисперсия w_i:

D\hat{w}_j=\frac{\sigma^2}{(n-1)D x_j}\frac{1}{1-R_j^2}.

Первая дробь связана с дисперсией невязок и дисперсией векторов признаков. Вторая — фактор инфляции дисперсии, связанный с корреляцей данного признака с другими:

VIF_j=\frac{1}{1-R_j^2},

где Rкоэффициент детерминации:

R^2 \equiv 1-{\sum_{j=1}^n (y_j - \hat{y}_j)^2 \over \sum_{j=1}^n (y_j-\bar{y})^2},\.

Равенство единице фактора инфляции дисперсии говорит об ортогональности вектора значений признака остальным. Если значение VIF_j велико, то 1-R^2_j — мало, то есть R_j^2 близко к 1. Большие значения фактора инфляции дисперсии соответствуют почти линейной зависимости j-го столбца от остальных.

Ссылки

[1]

Литература

1. Дрейпер Н., Смит Г. Прикладной регрессионный анализ. — Вильямс, 2007. — С. 487.

Личные инструменты