Статистические свойства МНК-оценок коэффициентов регрессии
Материал из MachineLearning.
| Строка 1: | Строка 1: | ||
| - | + | Статистическое исследование [[многомерная линейная регрессия|линейной регрессии]] включает в себя построение [[доверительный интервал|доверительных интервалов]] для коэффициентов регрессии и прогнозного значения отклика.  | |
| - | ==Основные   | + | Однако прежде чем переходить к решению поставленной задачи, необходимо выяснить, какими '''статистическими свойствами''' обладают '''[[Метод наименьших квадратов|МНК-оценки]] коэффициентов регрессии.'''  | 
| - | *  | + | |
| - | *'''ОП.1''' <tex>X</tex> - детерминированная <tex>n\times k</tex> матрица, <tex>rkX = k</tex> (признаки линейно независимы);  | + | Для того, чтобы регрессионная модель хорошо описывала исходные данные, а значит и МНК-оценки обладали хорошими свойствами, необходимо выполнение ряда предпосылок, называемых ''Основными Предположениями''.  | 
| - | *'''ОП.2''' Регрессионные остатки <tex>\varepsilon_i   | + | |
| + | ==Основные обозначения==  | ||
| + | |||
| + | Ввдедем матричные обозначения:  | ||
| + | |||
| + | *<tex>X=\(x_{11}\ \ \ldots\ \ x_{1k}<br>\ \vdots\ \ \ \ \ \ \ddots\ \ \ \ \vdots<br>x_{n1}\ \ \ldots\ \ x_{nk}\)\;</tex> - матрица, столбцами которой являются векторы признаков (регрессоров), а строками - объекты;  | ||
| + | |||
| + | *<tex> \hat{y}= \left[ \hat{y}_1 \\ ...\\ \hat{y}_n\right] </tex>  – зависимая переменная (отклик);  | ||
| + | |||
| + | *<tex> \theta= \left[\theta_1 \\ ...\\\theta_k  \right] </tex> - коэффициенты линейной регрессии;  | ||
| + | |||
| + | <tex> \hat{y} = X\theta;</tex>  | ||
| + | |||
| + | *<tex>\varepsilon = y - \hat y \; </tex> - вектор регрессионных остатков.  | ||
| + | |||
| + | Модель линейной регрессии имеет вид:   | ||
| + | ::<tex>y = X\theta + \varepsilon</tex>  | ||
| + | |||
| + | * <tex>\hat\theta = (X^TX)^{-1}X^Ty \; </tex>- МНК-оценка коэффициентов регрессии;  | ||
| + | |||
| + | ==Основные Предположения==  | ||
| + | |||
| + | *'''ОП.1''' <tex>X</tex> - детерминированная <tex>n\times k</tex> матрица, <tex>rkX = k</tex> (признаки линейно-независимы);  | ||
| + | *'''ОП.2''' Регрессионные остатки <tex>\varepsilon_i, \; i=\overline{1,n}</tex>  | ||
::'''2.1.''' одинаково распределены;  | ::'''2.1.''' одинаково распределены;  | ||
::'''2.2.''' <tex>E\varepsilon_i = 0</tex> (модель несмещенная);  | ::'''2.2.''' <tex>E\varepsilon_i = 0</tex> (модель несмещенная);  | ||
::'''2.3.''' <tex>D\varepsilon_i = \sigma^2</tex> (гомоскедастичность);  | ::'''2.3.''' <tex>D\varepsilon_i = \sigma^2</tex> (гомоскедастичность);  | ||
::'''2.4.''' <tex>E\varepsilon_i\varepsilon_j = 0, \; i\neq j</tex> (некореллированность).  | ::'''2.4.''' <tex>E\varepsilon_i\varepsilon_j = 0, \; i\neq j</tex> (некореллированность).  | ||
| + | |||
*'''Дополнительное Предположение 3 (ДП3):''' <tex>\; \; \varepsilon \sim N(0,\sigma^2I_n)</tex>,  | *'''Дополнительное Предположение 3 (ДП3):''' <tex>\; \; \varepsilon \sim N(0,\sigma^2I_n)</tex>,  | ||
:т.е вектор регрессионных остатков <tex>\varepsilon</tex> - [[нормальное распределение|нормально распределенный]] [[многомерная случайная величина|случайный вектор]] со [[многомерная случайная величина|средним]] 0 и [[ковариационная матрица|матрицей ковариации]] <tex>\sigma^2I_n</tex> (<tex>I_n</tex> - единичная матрица размера <tex>n\times n</tex>). В этом случаем модель называется ''нормальной линейной регрессионной моделью''.  | :т.е вектор регрессионных остатков <tex>\varepsilon</tex> - [[нормальное распределение|нормально распределенный]] [[многомерная случайная величина|случайный вектор]] со [[многомерная случайная величина|средним]] 0 и [[ковариационная матрица|матрицей ковариации]] <tex>\sigma^2I_n</tex> (<tex>I_n</tex> - единичная матрица размера <tex>n\times n</tex>). В этом случаем модель называется ''нормальной линейной регрессионной моделью''.  | ||
| + | |||
| + | Для проверки этих предположений используется [[Анализ регрессионных остатков.]]  | ||
==Свойства МНК-оценок без предположения о нормальности==  | ==Свойства МНК-оценок без предположения о нормальности==  | ||
| - | '''Теорема Гаусса-Маркова.''' Пусть выполнены   | + | '''Теорема Гаусса-Маркова.''' Пусть выполнены ОП.1 и ОП.2. Тогда оценка <tex>\hat\theta,</tex> полученная по [[метод наименьших квадратов|методу наименьших квадратов]] является [[статистическое оценивание|эффективной]] в классе линейных [[статистическое оценивание|несмещенных]] оценок (Best Linear Unbiased Estimator, BLUE).  | 
Исходя из этой теоремы можно выделить несколько основных '''свойств МНК-оценки <tex>\hat\theta:</tex>'''  | Исходя из этой теоремы можно выделить несколько основных '''свойств МНК-оценки <tex>\hat\theta:</tex>'''  | ||
| Строка 67: | Строка 93: | ||
[[Категория:Прикладная статистика]]  | [[Категория:Прикладная статистика]]  | ||
| - | [[Категория:  | + | [[Категория:Регрессионный анализ]]  | 
Версия 02:43, 29 января 2009
Статистическое исследование линейной регрессии включает в себя построение доверительных интервалов для коэффициентов регрессии и прогнозного значения отклика.
Однако прежде чем переходить к решению поставленной задачи, необходимо выяснить, какими статистическими свойствами обладают МНК-оценки коэффициентов регрессии.
Для того, чтобы регрессионная модель хорошо описывала исходные данные, а значит и МНК-оценки обладали хорошими свойствами, необходимо выполнение ряда предпосылок, называемых Основными Предположениями.
Содержание | 
Основные обозначения
Ввдедем матричные обозначения:
- матрица, столбцами которой являются векторы признаков (регрессоров), а строками - объекты;
– зависимая переменная (отклик);
- коэффициенты линейной регрессии;
- вектор регрессионных остатков.
Модель линейной регрессии имеет вид:
-  
- МНК-оценка коэффициентов регрессии;
 
Основные Предположения
- ОП.1 
- детерминированная
матрица,
(признаки линейно-независимы);
 - ОП.2 Регрессионные остатки 
 
- 2.1. одинаково распределены;
 - 2.2. 
(модель несмещенная);
 - 2.3. 
(гомоскедастичность);
 - 2.4. 
(некореллированность).
 
- Дополнительное Предположение 3 (ДП3): 
,
 
- т.е вектор регрессионных остатков 
- нормально распределенный случайный вектор со средним 0 и матрицей ковариации
(
- единичная матрица размера
). В этом случаем модель называется нормальной линейной регрессионной моделью.
 
Для проверки этих предположений используется Анализ регрессионных остатков.
Свойства МНК-оценок без предположения о нормальности
Теорема Гаусса-Маркова. Пусть выполнены ОП.1 и ОП.2. Тогда оценка  полученная по методу наименьших квадратов является эффективной в классе линейных несмещенных оценок (Best Linear Unbiased Estimator, BLUE).
Исходя из этой теоремы можно выделить несколько основных свойств МНК-оценки 
- Линейность:
 
-  
где
 
-  
 
- Несмещенность:
 
- Матрица ковариации равна:
 
-  МНК-оценка 
эффективна.
 
Итак, теорема Гаусса-Маркова утверждает, что любая другая линейная несмещенная оценка будет иметь большую дисперсию, чем МНК-оценка:
Нетрудно показать, что для любого вектора  оценка 
 будет обладать теми же свойствами, что и МНК-оценка 
. Поэтому:
-  если взять 
то получим что
 
- несмещенная, эффективная оценка
-  если 
то
 
- несмещенная, эффективная оценка
Свойства МНК-оценок с предположением о нормальности
Пусть теперь к тому же выполнено ДП3, т.е.  - многомерная нормально распределенная случайная величина, или, что то же самое 
 имеют совместное нормальное распределение. Тогда к перечисленным выше свойствам добавятся следующие:
-  МНК-оценка коэффициентов регрессии 
имеет нормальное распределение:
 
-  Несмещенная оценка для дисперсии шума 
имеет вид:
 
- где RSS есть остаточная сумма квадратов;
 
- Случайная величина
 
- распределена по закону хи-квадрат с 
степенями свободы;
 
-  Оценки 
и
линейно независимы. Откуда получается, что величина
 
- имеет распределение Стьюдента с 
степенями свободы.
 
Литература
- Кобзарь А. И. Прикладная математическая статистика. — М.: Физматлит, 2006.
 - Магнус Я. Р., Катышев П. К., Пересецкий А. А. Эконометрика. Начальный курс: Учеб. — 7-е изд., испр. — М.: Дело, 2005.
 


