Статистические свойства МНК-оценок коэффициентов регрессии
Материал из MachineLearning.
| (2 промежуточные версии не показаны) | |||
| Строка 1: | Строка 1: | ||
| - | Статистическое исследование [[многомерная линейная регрессия|линейной регрессии]] включает в себя построение [[  | + | Статистическое исследование [[многомерная линейная регрессия|линейной регрессии]] включает в себя построение [[доверительные интервалы для параметров регрессии|доверительных интервалов для параметров регрессии]]. Однако прежде чем переходить к решению поставленной задачи, необходимо выяснить, какими '''статистическими свойствами''' обладают '''[[Метод наименьших квадратов|МНК-оценки]] коэффициентов регрессии.'''  | 
| - | + | ||
| - | Однако прежде чем переходить к решению поставленной задачи, необходимо выяснить, какими '''статистическими свойствами''' обладают '''[[Метод наименьших квадратов|МНК-оценки]] коэффициентов регрессии.'''  | + | |
==Основные обозначения==  | ==Основные обозначения==  | ||
| Строка 7: | Строка 5: | ||
Ввдедем матричные обозначения:  | Ввдедем матричные обозначения:  | ||
| - | *<tex>X=\(x_{11}\ \ \ldots\ \ x_{1k}<br>\ \vdots  | + | *<tex>X=\(x_{11}\ \ \ldots\ \ x_{1k}<br>\ \vdots\ \ \ \ \ \ddots\ \ \ \ \vdots<br>x_{n1}\ \ \ldots\ \ x_{nk}\)\;</tex> - матрица, столбцами которой являются векторы признаков (регрессоров), а строками - объекты;  | 
*<tex> y= \left[ y_1 \\ ...\\ y_n\right] </tex>  – зависимая переменная (отклик);  | *<tex> y= \left[ y_1 \\ ...\\ y_n\right] </tex>  – зависимая переменная (отклик);  | ||
| Строка 72: | Строка 70: | ||
* Случайная величина   | * Случайная величина   | ||
::<tex>\frac{RSS}{\sigma^2} \sim \chi^2_{n-k}</tex>   | ::<tex>\frac{RSS}{\sigma^2} \sim \chi^2_{n-k}</tex>   | ||
| - | :распределена по   | + | :распределена по [[распределение хи-квадрат|закону хи-квадрат]] с <tex>n-k</tex> степенями свободы;  | 
* Оценки <tex>\hat\theta</tex> и <tex>s^2</tex> линейно независимы. Откуда получается, что величина   | * Оценки <tex>\hat\theta</tex> и <tex>s^2</tex> линейно независимы. Откуда получается, что величина   | ||
::<tex>\frac{\hat\theta-\theta}{\hat\sigma\sqrt{(X^TX)^{-1}}} \sim t_{n-k}</tex>   | ::<tex>\frac{\hat\theta-\theta}{\hat\sigma\sqrt{(X^TX)^{-1}}} \sim t_{n-k}</tex>   | ||
:имеет [[распределение Стьюдента]] с <tex>n-k</tex> степенями свободы.  | :имеет [[распределение Стьюдента]] с <tex>n-k</tex> степенями свободы.  | ||
| + | :А значит <tex>\;\forall c\in R^k \;</tex> величина  | ||
| + | ::<tex>\frac{c^T(\hat\theta-\theta)}{\hat\sigma\sqrt{c^T(X^TX)^{-1}c}} \sim t_{n-k}</tex>   | ||
| + | :также имеет распределение Стьюдента с <tex>n-k</tex> степенями свободы.  | ||
==Литература==  | ==Литература==  | ||
| + | # ''Лагутин М. Б.'' Наглядная математическая статистика. — М.: Бином, 2007.  | ||
# ''Кобзарь А. И.'' Прикладная математическая статистика. — М.: Физматлит, 2006.  | # ''Кобзарь А. И.'' Прикладная математическая статистика. — М.: Физматлит, 2006.  | ||
# ''Магнус Я. Р., Катышев П. К., Пересецкий А. А.'' Эконометрика. Начальный курс: Учеб. — 7-е изд., испр. — М.: Дело, 2005.  | # ''Магнус Я. Р., Катышев П. К., Пересецкий А. А.'' Эконометрика. Начальный курс: Учеб. — 7-е изд., испр. — М.: Дело, 2005.  | ||
| Строка 85: | Строка 87: | ||
* [[Многомерная линейная регрессия]]  | * [[Многомерная линейная регрессия]]  | ||
* [[Метод наименьших квадратов]]  | * [[Метод наименьших квадратов]]  | ||
| - | * [[Доверительные интервалы  | + | * [[Доверительные интервалы для параметров регрессии]]  | 
==Ссылки==  | ==Ссылки==  | ||
Текущая версия
Статистическое исследование линейной регрессии включает в себя построение доверительных интервалов для параметров регрессии. Однако прежде чем переходить к решению поставленной задачи, необходимо выяснить, какими статистическими свойствами обладают МНК-оценки коэффициентов регрессии.
Содержание | 
Основные обозначения
Ввдедем матричные обозначения:
- матрица, столбцами которой являются векторы признаков (регрессоров), а строками - объекты;
– зависимая переменная (отклик);
- коэффициенты линейной регрессии;
Модель линейной регрессии имеет вид:
- вектор регрессионных остатков;
-  
- МНК-оценка коэффициентов регрессии.
 
Основные Предположения
Для того, чтобы МНК-оценки коэффициентов регрессии обладали хорошими свойствами, необходимо выполнение ряда предпосылок, называемых Основными Предположениями.
- ОП1: 
- детерминированная
матрица,
(признаки линейно-независимы);
 - ОП2: Регрессионные остатки 
 
- 2.1. одинаково распределены;
 - 2.2. 
(модель несмещенная);
 - 2.3. 
(гомоскедастичность);
 - 2.4. 
(некореллированность).
 
- Дополнительное Предположение 3 (ДП3): 
,
 
- т.е вектор регрессионных остатков 
- нормально распределенный случайный вектор со средним 0 и матрицей ковариации
(
- единичная матрица размера
). В этом случаем модель называется нормальной линейной регрессионной моделью.
 
Проверки этих предположений занимается Анализ регрессионных остатков.
Свойства МНК-оценок без предположения о нормальности
Теорема Гаусса-Маркова. Пусть выполнены ОП1 и ОП2. Тогда оценка  полученная по методу наименьших квадратов является эффективной в классе линейных несмещенных оценок (Best Linear Unbiased Estimator, BLUE).
Исходя из этой теоремы можно выделить несколько основных свойств МНК-оценки 
- Линейность:
 
-  
где
 
-  
 
- Несмещенность:
 
- Матрица ковариации равна:
 
-  МНК-оценка 
эффективна.
 
Итак, теорема Гаусса-Маркова утверждает, что любая другая линейная несмещенная оценка будет иметь большую дисперсию, чем МНК-оценка:
Нетрудно показать, что для любого вектора  оценка 
 будет обладать теми же свойствами, что и МНК-оценка 
. Поэтому:
-  если взять 
то получим что
 
- несмещенная, эффективная оценка
-  если 
то
 
- несмещенная, эффективная оценка
Свойства МНК-оценок с предположением о нормальности
Пусть теперь к тому же выполнено ДП3, т.е.  - многомерная нормально распределенная случайная величина, или, что то же самое 
 имеют совместное нормальное распределение. Тогда к перечисленным выше свойствам добавятся следующие:
-  МНК-оценка коэффициентов регрессии 
имеет нормальное распределение:
 
-  Несмещенная оценка для дисперсии шума 
имеет вид:
 
- где RSS есть остаточная сумма квадратов;
 
- Случайная величина
 
- распределена по закону хи-квадрат с 
степенями свободы;
 
-  Оценки 
и
линейно независимы. Откуда получается, что величина
 
- имеет распределение Стьюдента с 
степенями свободы.
 - А значит 
величина
 - также имеет распределение Стьюдента с 
степенями свободы.
 
Литература
- Лагутин М. Б. Наглядная математическая статистика. — М.: Бином, 2007.
 - Кобзарь А. И. Прикладная математическая статистика. — М.: Физматлит, 2006.
 - Магнус Я. Р., Катышев П. К., Пересецкий А. А. Эконометрика. Начальный курс: Учеб. — 7-е изд., испр. — М.: Дело, 2005.
 
См. также
- Многомерная линейная регрессия
 - Метод наименьших квадратов
 - Доверительные интервалы для параметров регрессии
 


