Фактор инфляции дисперсии

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Ссылки)
м (Ссылки)
 
(9 промежуточных версий не показаны.)
Строка 1: Строка 1:
-
В задаче восстановления регрессии '''фактор инфляции дисперсии''' (VIF) — мера [[ Мультиколлинеарность| мультиколлинеарности ]] . Он позволяет оценить увеличение дисперсии заданного коэффициента регрессии, происходящее из-за высокой корреляции данных.
+
В задаче восстановления регрессии '''фактор инфляции дисперсии''' (VIF) — мера [[Мультиколлинеарность|мультиколлинеарности]]. Он позволяет оценить увеличение дисперсии заданного коэффициента регрессии, происходящее из-за высокой корреляции данных.
==Определение==
==Определение==
Строка 15: Строка 15:
<tex>VIF_j=\frac{1}{1-R_j^2},</tex>
<tex>VIF_j=\frac{1}{1-R_j^2},</tex>
-
где <tex>R</tex> — [[коэффициент детерминации]]:
+
где <tex>R_j^2</tex> — [[коэффициент детерминации]] j-го признака относительно остальных:
-
<tex>R^2 \equiv 1-{\sum_{j=1}^n (y_j - \hat{y}_j)^2 \over \sum_{j=1}^n (y_j-\bar{y})^2},\.</tex>
+
<tex>R_j^2 \equiv 1-{\sum_{i=1}^n (x_{ij} - \hat{x}_{ij})^2 \over \sum_{i=1}^n (x_{ij}-\bar{\mathbf{x}}_j)^2},\.</tex>
-
Равенство единице фактора инфляции дисперсии говорит об ортогональности вектора значений признака остальным. Если значение <tex>VIF_j</tex> велико, то <tex>1-R^2_j</tex> — мало, то есть <tex>R_j^2</tex> близко к 1. Большие значения фактора инфляции дисперсии соответствуют почти линейной зависимости j-го столбца от остальных.
+
Равенство единице фактора инфляции дисперсии говорит об ортогональности вектора значений признака остальным. Если значение <tex>VIF_j</tex> велико, то <tex>1-R^2_j</tex> — мало, то есть <tex>R_j^2</tex> близко к 1. Большие значения фактора инфляции дисперсии соответствуют почти линейной зависимости j-го столбца от остальных.
 +
 
 +
==Вычислительный эксперимент==
 +
 
 +
Мы использовали [http://www-stat.stanford.edu/~hastie/Papers/LARS/ реальные данные], на которых тестировался [[LARS]]. На них был проведен эксперимент по вычислению VIF для различных признаков. Код и данные размещены в [https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/ZaitsevPavlov2009VIF/ репозитории Sourceforge]. Полученные результаты представлены в таблице.
 +
 
 +
{| class="wikitable" style="text-align: center;"
 +
|- bgcolor="#ccccc"
 +
! width=30 % |#
 +
! width=40 % |VIF
 +
! width=30 % |#
 +
! width=40 % |VIF
 +
|-
 +
| '''1''' || 1.21 || '''7''' || 3.82
 +
|-
 +
| '''2''' || 1.31 || '''8''' || 7.43
 +
|-
 +
| '''3''' || 1.69 || '''9''' || 3.46
 +
|-
 +
| '''4''' || 1.51 || '''10''' || 1.47
 +
|-
 +
| '''5''' || 19.27 || '''11''' || 1.97
 +
|-
 +
| '''6''' || 16.37 || ''' ''' || ''' '''
 +
|-
 +
|}
 +
 
 +
Мы видим, что у двух признаков значение фактора инфляции дисперсии больше 10, еще у одного больше 5. Такой результат — следствие их мультиколлинеарности относительно остальных признаков нашего набора.
 +
 
 +
==Смотри также==
 +
 
 +
* [[Мультиколлинеарность]]
 +
* [[Анализ мультиколлинеарности (пример)]]
 +
* [[Коэффициент детерминации]]
==Ссылки==
==Ссылки==
* [http://en.wikipedia.org/wiki/Variance_Inflation_Factor Wikipedia]
* [http://en.wikipedia.org/wiki/Variance_Inflation_Factor Wikipedia]
 +
* [http://www-stat.stanford.edu/~hastie/Papers/LARS/ Данные для вычислительного эксперимента]
 +
* [https://svn.code.sf.net/p/mlalgorithms/code/Group674/ZaitsevPavlov2009VIF/ Репозиторий]
==Литература==
==Литература==

Текущая версия

В задаче восстановления регрессии фактор инфляции дисперсии (VIF) — мера мультиколлинеарности. Он позволяет оценить увеличение дисперсии заданного коэффициента регрессии, происходящее из-за высокой корреляции данных.

Содержание

Определение

Пусть задана выборка D = \{ y_i,\mathbf{x}_i\}_{i=1}^n откликов и признаков. Рассматривается множество линейных регрессионных моделей вида:

y_i=\sum_{j=1}^m w_j x_{ij} + \varepsilon_i, i=1,\dots,n

Предполагается, что вектор регрессионных невязок имеет нулевое математическое ожидание и дисперсию \sigma^2. В этом случае дисперсия w_i:

D\hat{w}_j=\frac{\sigma^2}{(n-1)D x_j}\frac{1}{1-R_j^2}.

Первая дробь связана с дисперсией невязок и дисперсией векторов признаков. Вторая — фактор инфляции дисперсии, связанный с корреляцей данного признака с другими:

VIF_j=\frac{1}{1-R_j^2},

где R_j^2коэффициент детерминации j-го признака относительно остальных:

R_j^2 \equiv 1-{\sum_{i=1}^n (x_{ij} - \hat{x}_{ij})^2 \over \sum_{i=1}^n (x_{ij}-\bar{\mathbf{x}}_j)^2},\.

Равенство единице фактора инфляции дисперсии говорит об ортогональности вектора значений признака остальным. Если значение VIF_j велико, то 1-R^2_j — мало, то есть R_j^2 близко к 1. Большие значения фактора инфляции дисперсии соответствуют почти линейной зависимости j-го столбца от остальных.

Вычислительный эксперимент

Мы использовали реальные данные, на которых тестировался LARS. На них был проведен эксперимент по вычислению VIF для различных признаков. Код и данные размещены в репозитории Sourceforge. Полученные результаты представлены в таблице.

# VIF # VIF
1 1.21 7 3.82
2 1.31 8 7.43
3 1.69 9 3.46
4 1.51 10 1.47
5 19.27 11 1.97
6 16.37

Мы видим, что у двух признаков значение фактора инфляции дисперсии больше 10, еще у одного больше 5. Такой результат — следствие их мультиколлинеарности относительно остальных признаков нашего набора.

Смотри также

Ссылки

Литература

1. Дрейпер Н., Смит Г. Прикладной регрессионный анализ. — Вильямс, 2007. — С. 487.

Личные инструменты