Исследование устойчивости оценок ковариационной матрицы параметров

Материал из MachineLearning.

(Различия между версиями)

Версия 20:44, 24 сентября 2011

Введение

В данной работе исследуется устойчивость оценок ковариационной матрицы параметров модели. Рассматриваются модели линейной регрессии. Тогда вектор параметров модели соответствует набору признаков модели. Ковариационная матрица параметров строится в предположении о вероятностном распределении вектора параметров. Исследуется, как будет меняться ковариационная матрица параметров модели при добавлении новых столбцов в матрицу плана. Для такой матрицы плана получаем расширенный вектор параметров модели и оценку матрицы ковариации параметров модели. Сравнивается ковариационная матрица для нерасширенного и расширенного вектора параметеров модели. Исследуется пространство параметров для информативных признаков.

Постановка задачи

Задана выборка $D = (X, \mathbf{y}) = \{(x_i, y_i)\}_{i = 1}^m$ . Вектор свободных переменных $x \in \mathbb{R}^n$ , зависимая переменная $y \in \mathbb{R}$ . Предполгается, что
$y = f(x, w) + \varepsilon,$

где $f(x, w)$ --- некоторая параметрическая функция, $w \in W$ --- вектор ее параметров, $\varepsilon$ --- ошибка, распределенная нормально с нулевым математическим ожиданием и дисперсией $\beta$ , $\varepsilon \sim \mathcal{N}(0, \beta)$ . Предполагается, что вектор параметров $w$ --- нормальнораспределенный случайный вектор с нулевым математическим ожиданием и матрицей ковариаций $A$ .

Рассматривается класс линейных функций $f(x, w)$ . Наиболее вероятные параметры $w_{MP}$ имеют вид:
$w_{MP} = argmax_{w} p(w| D, A, \beta, f).$

Для такого набора параметров исследуется матрица ковариации $A$ , который мы тоже оцениваем, используя принцип максимального правдоподобия.

Описание алгоритма оценки матрицы ковариации

Для фиксированных гиперпарамтеров $A$ , $\beta$ вектор наиболее вероятных параметров минимизирует функционал
$S(w) = w^T A w + \beta \sum_{i = 1}^n (y_i - x_i^T w)^2 = E_{w} + \beta E_D.$

Набор наиболее вероятных гиперпараметров будем искать, максимизируя оценку правдоподобия по $A$ , $\beta$
$\ln p(D|A, \beta, f) = - \frac12 \ln |A| - \frac{m}2 \ln 2\pi + \frac{m}2 \ln \beta \underbrace{- E_{w} - \beta E_D}_{S(w_0)} - \frac12 \ln |H|,$

здесь $H$ --- гессиан функционала $S(w)$ .

В предположении о диагональности матрицы $A = diag(\boldsymbol{\alpha})$ и гессиана $H = diag(\mathbf{h})$ , $\alpha = \{ \alpha_i \}_{i = 1}^m$ , $\mathbf{h} = \{h_i \}_{i = 1}^m$ , приравняв производные по гиперпараметрам к нулю, получаем оценку для $\alpha_i$ :
$\alpha_i = \frac12 \lambda_i \left( \sqrt{1 + \frac{4}{w_i^2 \lambda_i}} - 1 \right),$ здесь $\lambda_i = \beta h_i$ .

Так же получаем оценку $\beta$ :
$\beta = \frac{n - \gamma}{2 E_D},$ здесь
$\gamma = \sum_{j=1}^n \frac{\lambda_j}{\lambda_j + \alpha_j}.$

Используя оценки вектора параметров при фиксированных гиперпарамтерах и гиперпараметров при фиксированных параметрах, выпишем итерационный алгоритм поиска наиболее вероятных параметров и гиперпараметров. Он состоит из шагов:

поиск вектора параметров, максимизирующих функционал $S(w)$ ,
поиск гиперпараметров, максимизирующих правдоподобие,
проверка критерия остановки.

Критерий остановки --- малое изменение функционала $S(w)$ для двух последовательных итераций алгоритма.

Источник — «http://www.recognition.su/wiki/index.php?title=%D0%98%D1%81%D1%81%D0%BB%D0%B5%D0%B4%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5_%D1%83%D1%81%D1%82%D0%BE%D0%B9%D1%87%D0%B8%D0%B2%D0%BE%D1%81%D1%82%D0%B8_%D0%BE%D1%86%D0%B5%D0%BD%D0%BE%D0%BA_%D0%BA%D0%BE%D0%B2%D0%B0%D1%80%D0%B8%D0%B0%D1%86%D0%B8%D0%BE%D0%BD%D0%BD%D0%BE%D0%B9_%D0%BC%D0%B0%D1%82%D1%80%D0%B8%D1%86%D1%8B_%D0%BF%D0%B0%D1%80%D0%B0%D0%BC%D0%B5%D1%82%D1%80%D0%BE%D0%B2»

@@ Строка 13: / Строка 13: @@
 Задана выборка <tex>D = (X, \mathbf{y}) = \{(x_i, y_i)\}_{i = 1}^m</tex>.
-Вектор свободных переменных <tex>x \in \mathbb{R}^n<tex>, зависимая переменная <tex>y \in \mathbb{R}</tex>.
+Вектор свободных переменных <tex>x \in \mathbb{R}^n</tex>, зависимая переменная <tex>y \in \mathbb{R}</tex>.
 Предполгается, что
 <br/>
@@ Строка 19: / Строка 19: @@
 y = f(x, w) + \varepsilon,
 </tex>
 где <tex>f(x, w)</tex> --- некоторая параметрическая функция, <tex>w \in W</tex> --- вектор ее параметров, <tex>\varepsilon</tex> --- ошибка, распределенная нормально с нулевым математическим ожиданием и дисперсией <tex>\beta</tex>, <tex>\varepsilon \sim \mathcal{N}(0, \beta)</tex>. Предполагается, что вектор параметров <tex>w</tex> --- нормальнораспределенный случайный вектор с нулевым математическим ожиданием и матрицей ковариаций <tex>A</tex>.
@@ Строка 24: / Строка 25: @@
 Наиболее вероятные параметры <tex>w_{MP}</tex> имеют вид: <br/>
 <tex>
-w_{MP} = \argmax_{w} p(w| D, A, \beta, f).
+w_{MP} = argmax_{w} p(w| D, A, \beta, f).
 </tex>
@@ Строка 36: / Строка 37: @@
 </tex>
-Набор наиболее вероятных гиперпараметров будем искать, максимизируя оценку правдоподобия по <tex>A</tex>, <tex>\beta</tex>
+Набор наиболее вероятных гиперпараметров будем искать, максимизируя оценку правдоподобия по <tex>A</tex>, <tex>\beta</tex><br/>
 <tex>
 	\ln p(D|A, \beta, f) = - \frac12 \ln |A| - \frac{m}2 \ln 2\pi + \frac{m}2 \ln \beta \underbrace{- E_{w} - \beta E_D}_{S(w_0)} - \frac12 \ln |H|,
 </tex>
 здесь <tex>H</tex> --- гессиан функционала <tex>S(w)</tex>.
 В предположении о диагональности матрицы <tex>A = diag(\boldsymbol{\alpha})</tex> и гессиана <tex>H = diag(\mathbf{h})</tex>,
- <tex>\boldsymbol{\alpha} = \{ \alpha_i \}_{i = 1}^m</tex>, <tex>\mathbf{h} = \{h_i \}_{i = 1}^m</tex>, приравняв производные по гиперпараметрам к нулю, получаем оценку для <tex>\alpha_i</tex> <br/>:
+<tex>\alpha = \{ \alpha_i \}_{i = 1}^m</tex>, <tex>\mathbf{h} = \{h_i \}_{i = 1}^m</tex>, приравняв производные по гиперпараметрам к нулю, получаем оценку для <tex>\alpha_i</tex>: <br/>
 <tex>
-	\label{eq:alph}
 	\alpha_i = \frac12 \lambda_i \left( \sqrt{1 + \frac{4}{w_i^2 \lambda_i}} - 1 \right),
 </tex>
 здесь <tex>\lambda_i = \beta h_i</tex>.
-Так же получаем оценку <tex>\beta</tex> <br/>
+Так же получаем оценку <tex>\beta</tex>: <br/>
 <tex>
-  \label{eq:beta}
 	\beta = \frac{n - \gamma}{2 E_D},
 </tex>

Исследование устойчивости оценок ковариационной матрицы параметров

Материал из MachineLearning.

Версия 20:44, 24 сентября 2011

Введение

Постановка задачи

Описание алгоритма оценки матрицы ковариации

Просмотры

Личные инструменты

Навигация

Поиск

Инструменты