Коэффициент детерминации
Материал из MachineLearning.
м   | 
				 (Поменял местами обозначения ESS и RSS чтобы они стали стандартными)  | 
			||
| Строка 10: | Строка 10: | ||
В данном определении используются истинные параметры, характеризующие распределение случайных величин. Если использовать выборочную оценку значений соответствующих дисперсий, то получим формулу для выборочного коэффициента детерминации (который обычно и подразумевается под коэффициентом детерминации):  | В данном определении используются истинные параметры, характеризующие распределение случайных величин. Если использовать выборочную оценку значений соответствующих дисперсий, то получим формулу для выборочного коэффициента детерминации (который обычно и подразумевается под коэффициентом детерминации):  | ||
| - | : <tex>R^2 =1-\frac {\hat{\sigma}^2}{\hat{\sigma}^2_y}=1-\frac {  | + | : <tex>R^2 =1-\frac {\hat{\sigma}^2}{\hat{\sigma}^2_y}=1-\frac {RSS/n}{TSS/n}=1-\frac {RSS} {TSS},</tex>  | 
где    | где    | ||
| - | :<tex>  | + | :<tex>RSS=\sum^n_{t=1}e^2_t=\sum^n_{t=1} (y_t-\hat y_t)^2</tex> — сумма квадратов регрессионных остатков,  | 
| - | :<tex>TSS=\sum^n_{t=1} (y_t-  | + | :<tex>TSS=\sum^n_{t=1} (y_t-\bar{y})^2=n \hat \sigma^2_y</tex> — общая дисперсия,  | 
:<tex>y_t,\hat y_t</tex> — соответственно, фактические и расчетные значения объясняемой переменной,   | :<tex>y_t,\hat y_t</tex> — соответственно, фактические и расчетные значения объясняемой переменной,   | ||
:<tex>\bar{y}=\frac{1}{n}\sum_{i=1}^n y_i </tex> — выборочное вреднее.  | :<tex>\bar{y}=\frac{1}{n}\sum_{i=1}^n y_i </tex> — выборочное вреднее.  | ||
| - | В случае [[линейная регрессия|линейной регрессии]] ''с константой'' <tex>TSS=RSS+ESS</tex>, где <tex>  | + | В случае [[линейная регрессия|линейной регрессии]] ''с константой'' <tex>TSS=RSS+ESS</tex>, где <tex>ESS=\sum^n_{t=1} (\hat y_t-\bar{y})^2</tex> — объяснённая сумма квадратов, поэтому получаем более простое определение в этом случае. ''Коэффициент детерминации — это доля объяснённой дисперсии в общей'':  | 
| - | :<tex>R^2=\frac {  | + | :<tex>R^2=\frac {ESS} {TSS}</tex>.  | 
Необходимо подчеркнуть, что эта формула справедлива только для модели с константой, в общем случае необходимо использовать предыдущую формулу.   | Необходимо подчеркнуть, что эта формула справедлива только для модели с константой, в общем случае необходимо использовать предыдущую формулу.   | ||
| Строка 32: | Строка 32: | ||
== Скорректированный (adjusted) <tex>R^2</tex> ==  | == Скорректированный (adjusted) <tex>R^2</tex> ==  | ||
Для того, чтобы была возможность сравнивать модели с разным числом признаков так, чтобы число регрессоров (признаков) не влияло на статистику <tex>R^2</tex> обычно используется ''скорректированный коэффициент детерминации'', в котором используются несмещённые оценки дисперсий:  | Для того, чтобы была возможность сравнивать модели с разным числом признаков так, чтобы число регрессоров (признаков) не влияло на статистику <tex>R^2</tex> обычно используется ''скорректированный коэффициент детерминации'', в котором используются несмещённые оценки дисперсий:  | ||
| - | :<tex>R_{adj}^2 =1-\frac {s^2}{s^2_y}=1-\frac {  | + | :<tex>R_{adj}^2 =1-\frac {s^2}{s^2_y}=1-\frac {RSS/(n-k)}{TSS/(n-1)}=1-(1- R^2) {(n-1) \over (n-k)}\leq R^2,</tex>  | 
который даёт штраф за дополнительно включённые признаки, где <tex>n</tex> — количество наблюдений, а <tex>k</tex> — количество параметров.  | который даёт штраф за дополнительно включённые признаки, где <tex>n</tex> — количество наблюдений, а <tex>k</tex> — количество параметров.  | ||
| Строка 38: | Строка 38: | ||
Данный показатель всегда меньше единицы, но теоретически может быть и меньше нуля (только при очень маленьком значении обычного коэффициента детерминации и большом количестве признаков), поэтому интерпретировать его как долю объясняемой дисперсии уже нельзя. Тем не менее, применение показателя в сравнении вполне обоснованно.  | Данный показатель всегда меньше единицы, но теоретически может быть и меньше нуля (только при очень маленьком значении обычного коэффициента детерминации и большом количестве признаков), поэтому интерпретировать его как долю объясняемой дисперсии уже нельзя. Тем не менее, применение показателя в сравнении вполне обоснованно.  | ||
| - | Для моделей с одинаковой зависимой переменной и одинаковым объемом выборки сравнение моделей с помощью скорректированного коэффициента детерминации эквивалентно их сравнению с помощью остаточной дисперсии <tex>s^2=  | + | Для моделей с одинаковой зависимой переменной и одинаковым объемом выборки сравнение моделей с помощью скорректированного коэффициента детерминации эквивалентно их сравнению с помощью остаточной дисперсии <tex>s^2=RSS/(n-k)</tex>  или стандартной ошибки модели <tex>s</tex>.   | 
== Обобщённый (extended) <tex>R^2</tex>==  | == Обобщённый (extended) <tex>R^2</tex>==  | ||
Версия 08:58, 17 декабря 2016
Коэффициент детерминации ( - R-квадрат) — это доля дисперсии зависимой переменной, объясняемая рассматриваемой моделью. Более точно — это единица минус доля необъяснённой дисперсии (дисперсии случайной ошибки модели, или условной по признакам дисперсии зависимой переменной) в дисперсии зависимой переменной. В случае линейной зависимости 
 является квадратом так называемого множественного коэффициента корреляции между зависимой переменной и объясняющими переменными. В частности, для модели линейной регрессии с одним признаком 
 коэффициент детерминации равен квадрату обычного коэффициента корреляции между 
 и 
.
Содержание | 
Определение и формула
Истинный коэффициент детерминации модели зависимости случайной величины  от признаков 
 определяется следующим образом:
где  — условная (по признакам 
) дисперсия зависимой переменной (дисперсия случайной ошибки модели). 
В данном определении используются истинные параметры, характеризующие распределение случайных величин. Если использовать выборочную оценку значений соответствующих дисперсий, то получим формулу для выборочного коэффициента детерминации (который обычно и подразумевается под коэффициентом детерминации):
где
— сумма квадратов регрессионных остатков,
— общая дисперсия,
— соответственно, фактические и расчетные значения объясняемой переменной,
— выборочное вреднее.
В случае линейной регрессии с константой , где 
 — объяснённая сумма квадратов, поэтому получаем более простое определение в этом случае. Коэффициент детерминации — это доля объяснённой дисперсии в общей:
.
Необходимо подчеркнуть, что эта формула справедлива только для модели с константой, в общем случае необходимо использовать предыдущую формулу.
Интерпретация
- Коэффициент детерминации для модели с константой принимает значения от 0 до 1. Чем ближе значение коэффициента к 1, тем сильнее зависимость. При оценке регрессионных моделей это интерпретируется как соответствие модели данным. Для приемлемых моделей предполагается, что коэффициент детерминации должен быть хотя бы не меньше 50% (в этом случае коэффициент множественной корреляции превышает по модулю 70%). Модели с коэффициентом детерминации выше 80% можно признать достаточно хорошими (коэффициент корреляции превышает 90%). Равенство коэффициента детерминации единице означает, что объясняемая переменная в точности описывается рассматриваемой моделью.
 -  При отсутствии статистической связи между объясняемой переменной и признаками статистика 
для линейной регрессии имеет асимптотическое распределение
, где
— число признаков в модели. В случае линейной регрессии с независимыми одинаково распределёнными нормальными случайными ошибками статистика
имеет точное (для выборок любого объёма) распределение Фишера
. Информация о распределении этих величин позволяет проверить статистическую значимость регрессионной модели исходя из значения коэффициента детерминации. Фактически в этих тестах проверяется гипотеза о равенстве истинного коэффициента детерминации нулю.
 
  Недостатки 
 и альтернативные показатели
Основная проблема применения (выборочного)  заключается в том, что его значение увеличивается (не уменьшается) от добавления в модель новых переменных, даже если эти переменные никакого отношения к объясняемой переменной не имеют. Поэтому сравнение моделей с разным количеством признаков с помощью коэффициента детерминации, вообще говоря, некорректно. Для этих целей можно использовать альтернативные показатели.
  Скорректированный (adjusted) 
 
Для того, чтобы была возможность сравнивать модели с разным числом признаков так, чтобы число регрессоров (признаков) не влияло на статистику  обычно используется скорректированный коэффициент детерминации, в котором используются несмещённые оценки дисперсий:
который даёт штраф за дополнительно включённые признаки, где  — количество наблюдений, а 
 — количество параметров.
Данный показатель всегда меньше единицы, но теоретически может быть и меньше нуля (только при очень маленьком значении обычного коэффициента детерминации и большом количестве признаков), поэтому интерпретировать его как долю объясняемой дисперсии уже нельзя. Тем не менее, применение показателя в сравнении вполне обоснованно.
Для моделей с одинаковой зависимой переменной и одинаковым объемом выборки сравнение моделей с помощью скорректированного коэффициента детерминации эквивалентно их сравнению с помощью остаточной дисперсии   или стандартной ошибки модели 
. 
  Обобщённый (extended) 
В случае отсутствия в линейной множественной МНК регрессии константы свойства коэффициента детерминации могут нарушаться для конкретной реализации. Поэтому модели регрессии со свободным членом и без него нельзя сравнивать по критерию . Эта проблема решается с помощью построения обобщённого коэффициента детерминации 
, который совпадает с исходным для случая МНК регрессии со свободным членом. Суть этого метода заключается рассмотрении проекции единичного вектора на плоскость объясняющих переменных.
Для случая регрессии без свободного члена:
где  — матрица 
 значений признаков, 
 — проектор на плоскость 
, 
, 
 — единичный вектор 
.
При некоторой модификации  также подходит для сравнения между собой регрессионных моделей, построенных с помощью: МНК, обобщённого метода наименьших квадратов (ОМНК), условного метода наименьших квадратов (УМНК), обобщённо-условного метода наименьших квадратов (ОУМНК).

