Фактор инфляции дисперсии
Материал из MachineLearning.
м («Фактор инфляции регрессии» переименована в «Фактор инфляции дисперсии»: опечатка) |
|||
Строка 5: | Строка 5: | ||
Пусть задана выборка <tex>D = \{ y_i,\mathbf{x}_i\}_{i=1}^n</tex> откликов и признаков. Рассматривается множество [[Линейная регрессия (пример)|линейных регрессионных моделей]] вида: | Пусть задана выборка <tex>D = \{ y_i,\mathbf{x}_i\}_{i=1}^n</tex> откликов и признаков. Рассматривается множество [[Линейная регрессия (пример)|линейных регрессионных моделей]] вида: | ||
- | <tex>y_i=\sum_{j=1}^m | + | <tex>y_i=\sum_{j=1}^m w_j x_{ij} + \varepsilon_i, i=1,\dots,n</tex> |
Предполагается, что вектор регрессионных невязок имеет нулевое математическое ожидание и дисперсию <tex>\sigma^2</tex>. В этом случае дисперсия <tex>w_i</tex>: | Предполагается, что вектор регрессионных невязок имеет нулевое математическое ожидание и дисперсию <tex>\sigma^2</tex>. В этом случае дисперсия <tex>w_i</tex>: | ||
Строка 14: | Строка 14: | ||
<tex>VIF_j=\frac{1}{1-R_j^2},</tex> | <tex>VIF_j=\frac{1}{1-R_j^2},</tex> | ||
+ | |||
+ | где <tex>R</tex> — [[коэффициент детерминации]]: | ||
<tex>R^2 \equiv 1-{\sum_{j=1}^n (y_j - \hat{y}_j)^2 \over \sum_{j=1}^n (y_j-\bar{y})^2},\.</tex> | <tex>R^2 \equiv 1-{\sum_{j=1}^n (y_j - \hat{y}_j)^2 \over \sum_{j=1}^n (y_j-\bar{y})^2},\.</tex> | ||
Равенство единице фактора инфляции дисперсии говорит об ортогональности вектора значений признака остальным. Если значение <tex>VIF_j</tex> велико, то <tex>1-R^2_j</tex> — мало, то есть <tex>R_j^2</tex> близко к 1. Большие значения фактора инфляции дисперсии соответствуют почти линейной зависимости j-го столбца от остальных. | Равенство единице фактора инфляции дисперсии говорит об ортогональности вектора значений признака остальным. Если значение <tex>VIF_j</tex> велико, то <tex>1-R^2_j</tex> — мало, то есть <tex>R_j^2</tex> близко к 1. Большие значения фактора инфляции дисперсии соответствуют почти линейной зависимости j-го столбца от остальных. | ||
+ | |||
+ | ==Ссылки== | ||
+ | |||
+ | [http://en.wikipedia.org/wiki/Variance_Inflation_Factor] | ||
==Литература== | ==Литература== | ||
Строка 27: | Строка 33: | ||
|страницы = 487 | |страницы = 487 | ||
}} | }} | ||
+ | |||
+ | [[Категория:Линейная регрессия]] |
Версия 20:50, 4 марта 2010
В задаче восстановления регрессии фактор инфляции дисперсии (VIF) — мера мультиколлинеарности . Он позволяет оценить увеличение дисперсии заданного коэффициента регрессии, происходящее из-за высокой корреляции данных.
Определение
Пусть задана выборка откликов и признаков. Рассматривается множество линейных регрессионных моделей вида:
Предполагается, что вектор регрессионных невязок имеет нулевое математическое ожидание и дисперсию . В этом случае дисперсия :
Первая дробь связана с дисперсией невязок и дисперсией векторов признаков. Вторая — фактор инфляции дисперсии, связанный с корреляцей данного признака с другими:
где — коэффициент детерминации:
Равенство единице фактора инфляции дисперсии говорит об ортогональности вектора значений признака остальным. Если значение велико, то — мало, то есть близко к 1. Большие значения фактора инфляции дисперсии соответствуют почти линейной зависимости j-го столбца от остальных.
Ссылки
Литература
1. Дрейпер Н., Смит Г. Прикладной регрессионный анализ. — Вильямс, 2007. — С. 487.