Фактор инфляции дисперсии
Материал из MachineLearning.
(→Ссылки) |
м (→Ссылки) |
||
(9 промежуточных версий не показаны.) | |||
Строка 1: | Строка 1: | ||
- | В задаче восстановления регрессии '''фактор инфляции дисперсии''' (VIF) — мера [[ Мультиколлинеарность| мультиколлинеарности ]] . Он позволяет оценить увеличение дисперсии заданного коэффициента регрессии, происходящее из-за высокой корреляции данных. | + | В задаче восстановления регрессии '''фактор инфляции дисперсии''' (VIF) — мера [[Мультиколлинеарность|мультиколлинеарности]]. Он позволяет оценить увеличение дисперсии заданного коэффициента регрессии, происходящее из-за высокой корреляции данных. |
==Определение== | ==Определение== | ||
Строка 15: | Строка 15: | ||
<tex>VIF_j=\frac{1}{1-R_j^2},</tex> | <tex>VIF_j=\frac{1}{1-R_j^2},</tex> | ||
- | где <tex> | + | где <tex>R_j^2</tex> — [[коэффициент детерминации]] j-го признака относительно остальных: |
- | <tex> | + | <tex>R_j^2 \equiv 1-{\sum_{i=1}^n (x_{ij} - \hat{x}_{ij})^2 \over \sum_{i=1}^n (x_{ij}-\bar{\mathbf{x}}_j)^2},\.</tex> |
- | Равенство единице фактора инфляции дисперсии говорит об ортогональности вектора значений признака остальным. Если значение <tex>VIF_j</tex> велико, то <tex>1-R^2_j</tex> — мало, то есть <tex>R_j^2</tex> близко к 1. Большие значения фактора инфляции дисперсии соответствуют почти линейной зависимости j-го столбца от остальных. | + | Равенство единице фактора инфляции дисперсии говорит об ортогональности вектора значений признака остальным. Если значение <tex>VIF_j</tex> велико, то <tex>1-R^2_j</tex> — мало, то есть <tex>R_j^2</tex> близко к 1. Большие значения фактора инфляции дисперсии соответствуют почти линейной зависимости j-го столбца от остальных. |
+ | |||
+ | ==Вычислительный эксперимент== | ||
+ | |||
+ | Мы использовали [http://www-stat.stanford.edu/~hastie/Papers/LARS/ реальные данные], на которых тестировался [[LARS]]. На них был проведен эксперимент по вычислению VIF для различных признаков. Код и данные размещены в [https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/ZaitsevPavlov2009VIF/ репозитории Sourceforge]. Полученные результаты представлены в таблице. | ||
+ | |||
+ | {| class="wikitable" style="text-align: center;" | ||
+ | |- bgcolor="#ccccc" | ||
+ | ! width=30 % |# | ||
+ | ! width=40 % |VIF | ||
+ | ! width=30 % |# | ||
+ | ! width=40 % |VIF | ||
+ | |- | ||
+ | | '''1''' || 1.21 || '''7''' || 3.82 | ||
+ | |- | ||
+ | | '''2''' || 1.31 || '''8''' || 7.43 | ||
+ | |- | ||
+ | | '''3''' || 1.69 || '''9''' || 3.46 | ||
+ | |- | ||
+ | | '''4''' || 1.51 || '''10''' || 1.47 | ||
+ | |- | ||
+ | | '''5''' || 19.27 || '''11''' || 1.97 | ||
+ | |- | ||
+ | | '''6''' || 16.37 || ''' ''' || ''' ''' | ||
+ | |- | ||
+ | |} | ||
+ | |||
+ | Мы видим, что у двух признаков значение фактора инфляции дисперсии больше 10, еще у одного больше 5. Такой результат — следствие их мультиколлинеарности относительно остальных признаков нашего набора. | ||
+ | |||
+ | ==Смотри также== | ||
+ | |||
+ | * [[Мультиколлинеарность]] | ||
+ | * [[Анализ мультиколлинеарности (пример)]] | ||
+ | * [[Коэффициент детерминации]] | ||
==Ссылки== | ==Ссылки== | ||
* [http://en.wikipedia.org/wiki/Variance_Inflation_Factor Wikipedia] | * [http://en.wikipedia.org/wiki/Variance_Inflation_Factor Wikipedia] | ||
+ | * [http://www-stat.stanford.edu/~hastie/Papers/LARS/ Данные для вычислительного эксперимента] | ||
+ | * [https://svn.code.sf.net/p/mlalgorithms/code/Group674/ZaitsevPavlov2009VIF/ Репозиторий] | ||
==Литература== | ==Литература== |
Текущая версия
В задаче восстановления регрессии фактор инфляции дисперсии (VIF) — мера мультиколлинеарности. Он позволяет оценить увеличение дисперсии заданного коэффициента регрессии, происходящее из-за высокой корреляции данных.
Содержание |
Определение
Пусть задана выборка откликов и признаков. Рассматривается множество линейных регрессионных моделей вида:
Предполагается, что вектор регрессионных невязок имеет нулевое математическое ожидание и дисперсию . В этом случае дисперсия :
Первая дробь связана с дисперсией невязок и дисперсией векторов признаков. Вторая — фактор инфляции дисперсии, связанный с корреляцей данного признака с другими:
где — коэффициент детерминации j-го признака относительно остальных:
Равенство единице фактора инфляции дисперсии говорит об ортогональности вектора значений признака остальным. Если значение велико, то — мало, то есть близко к 1. Большие значения фактора инфляции дисперсии соответствуют почти линейной зависимости j-го столбца от остальных.
Вычислительный эксперимент
Мы использовали реальные данные, на которых тестировался LARS. На них был проведен эксперимент по вычислению VIF для различных признаков. Код и данные размещены в репозитории Sourceforge. Полученные результаты представлены в таблице.
# | VIF | # | VIF |
---|---|---|---|
1 | 1.21 | 7 | 3.82 |
2 | 1.31 | 8 | 7.43 |
3 | 1.69 | 9 | 3.46 |
4 | 1.51 | 10 | 1.47 |
5 | 19.27 | 11 | 1.97 |
6 | 16.37 |
Мы видим, что у двух признаков значение фактора инфляции дисперсии больше 10, еще у одного больше 5. Такой результат — следствие их мультиколлинеарности относительно остальных признаков нашего набора.
Смотри также
Ссылки
Литература
1. Дрейпер Н., Смит Г. Прикладной регрессионный анализ. — Вильямс, 2007. — С. 487.