Исследование устойчивости оценок ковариационной матрицы параметров
Материал из MachineLearning.
| Строка 16: | Строка 16: | ||
Предполгается, что   | Предполгается, что   | ||
<br/>  | <br/>  | ||
| - | <tex>  | + | <center><tex>  | 
y = f(x, w) + \varepsilon,  | y = f(x, w) + \varepsilon,  | ||
| - | </tex>  | + | </tex></center>  | 
где <tex>f(x, w)</tex> --- некоторая параметрическая функция, <tex>w \in W</tex> --- вектор ее параметров, <tex>\varepsilon</tex> --- ошибка, распределенная нормально с нулевым математическим ожиданием и дисперсией <tex>\beta</tex>, <tex>\varepsilon \sim \mathcal{N}(0, \beta)</tex>. Предполагается, что вектор параметров <tex>w</tex> --- нормальнораспределенный случайный вектор с нулевым математическим ожиданием и матрицей ковариаций <tex>A</tex>.  | где <tex>f(x, w)</tex> --- некоторая параметрическая функция, <tex>w \in W</tex> --- вектор ее параметров, <tex>\varepsilon</tex> --- ошибка, распределенная нормально с нулевым математическим ожиданием и дисперсией <tex>\beta</tex>, <tex>\varepsilon \sim \mathcal{N}(0, \beta)</tex>. Предполагается, что вектор параметров <tex>w</tex> --- нормальнораспределенный случайный вектор с нулевым математическим ожиданием и матрицей ковариаций <tex>A</tex>.  | ||
| Строка 24: | Строка 24: | ||
Рассматривается класс линейных функций <tex>f(x, w)</tex>.  | Рассматривается класс линейных функций <tex>f(x, w)</tex>.  | ||
Наиболее вероятные параметры <tex>w_{MP}</tex> имеют вид: <br/>  | Наиболее вероятные параметры <tex>w_{MP}</tex> имеют вид: <br/>  | ||
| - | <tex>  | + | <center><tex>  | 
w_{MP} = argmax_{w} p(w| D, A, \beta, f).  | w_{MP} = argmax_{w} p(w| D, A, \beta, f).  | ||
| - | </tex>  | + | </tex></center>  | 
Для такого набора параметров исследуется матрица ковариации <tex>A</tex>, который мы тоже оцениваем, используя принцип максимального правдоподобия.  | Для такого набора параметров исследуется матрица ковариации <tex>A</tex>, который мы тоже оцениваем, используя принцип максимального правдоподобия.  | ||
| Строка 33: | Строка 33: | ||
Для фиксированных гиперпарамтеров <tex>A</tex>, <tex>\beta</tex> вектор наиболее вероятных параметров минимизирует функционал <br/>  | Для фиксированных гиперпарамтеров <tex>A</tex>, <tex>\beta</tex> вектор наиболее вероятных параметров минимизирует функционал <br/>  | ||
| - | <tex>  | + | <center><tex>  | 
S(w) = w^T A w + \beta \sum_{i = 1}^n (y_i - x_i^T w)^2 = E_{w} + \beta E_D.  | S(w) = w^T A w + \beta \sum_{i = 1}^n (y_i - x_i^T w)^2 = E_{w} + \beta E_D.  | ||
| - | </tex>  | + | </tex></center>  | 
Набор наиболее вероятных гиперпараметров будем искать, максимизируя оценку правдоподобия по <tex>A</tex>, <tex>\beta</tex><br/>  | Набор наиболее вероятных гиперпараметров будем искать, максимизируя оценку правдоподобия по <tex>A</tex>, <tex>\beta</tex><br/>  | ||
| - | <tex>  | + | <center><tex>  | 
	\ln p(D|A, \beta, f) = - \frac12 \ln |A| - \frac{m}2 \ln 2\pi + \frac{m}2 \ln \beta \underbrace{- E_{w} - \beta E_D}_{S(w_0)} - \frac12 \ln |H|,  | 	\ln p(D|A, \beta, f) = - \frac12 \ln |A| - \frac{m}2 \ln 2\pi + \frac{m}2 \ln \beta \underbrace{- E_{w} - \beta E_D}_{S(w_0)} - \frac12 \ln |H|,  | ||
| - | </tex>  | + | </tex></center>  | 
здесь <tex>H</tex> --- гессиан функционала <tex>S(w)</tex>.  | здесь <tex>H</tex> --- гессиан функционала <tex>S(w)</tex>.  | ||
| Строка 46: | Строка 46: | ||
В предположении о диагональности матрицы <tex>A = diag(\boldsymbol{\alpha})</tex> и гессиана <tex>H = diag(\mathbf{h})</tex>,  | В предположении о диагональности матрицы <tex>A = diag(\boldsymbol{\alpha})</tex> и гессиана <tex>H = diag(\mathbf{h})</tex>,  | ||
<tex>\alpha = \{ \alpha_i \}_{i = 1}^m</tex>, <tex>\mathbf{h} = \{h_i \}_{i = 1}^m</tex>, приравняв производные по гиперпараметрам к нулю, получаем оценку для <tex>\alpha_i</tex>: <br/>  | <tex>\alpha = \{ \alpha_i \}_{i = 1}^m</tex>, <tex>\mathbf{h} = \{h_i \}_{i = 1}^m</tex>, приравняв производные по гиперпараметрам к нулю, получаем оценку для <tex>\alpha_i</tex>: <br/>  | ||
| - | <tex>  | + | <center><tex>  | 
	\alpha_i = \frac12 \lambda_i \left( \sqrt{1 + \frac{4}{w_i^2 \lambda_i}} - 1 \right),  | 	\alpha_i = \frac12 \lambda_i \left( \sqrt{1 + \frac{4}{w_i^2 \lambda_i}} - 1 \right),  | ||
| - | </tex>  | + | </tex></center>  | 
здесь <tex>\lambda_i = \beta h_i</tex>.  | здесь <tex>\lambda_i = \beta h_i</tex>.  | ||
Так же получаем оценку <tex>\beta</tex>: <br/>  | Так же получаем оценку <tex>\beta</tex>: <br/>  | ||
| - | <tex>  | + | <center><tex>  | 
	\beta = \frac{n - \gamma}{2 E_D},  | 	\beta = \frac{n - \gamma}{2 E_D},  | ||
| - | </tex>  | + | </tex></center>  | 
здесь <br/>  | здесь <br/>  | ||
| - | <tex>  | + | <center><tex>  | 
	\gamma = \sum_{j=1}^n \frac{\lambda_j}{\lambda_j + \alpha_j}.  | 	\gamma = \sum_{j=1}^n \frac{\lambda_j}{\lambda_j + \alpha_j}.  | ||
| - | </tex>  | + | </tex></center>  | 
Используя оценки вектора параметров при фиксированных гиперпарамтерах и гиперпараметров при фиксированных параметрах, выпишем итерационный алгоритм поиска наиболее вероятных параметров и гиперпараметров.  | Используя оценки вектора параметров при фиксированных гиперпарамтерах и гиперпараметров при фиксированных параметрах, выпишем итерационный алгоритм поиска наиболее вероятных параметров и гиперпараметров.  | ||
Версия 20:50, 24 сентября 2011
Содержание | 
Введение
В данной работе исследуется устойчивость оценок ковариационной матрицы параметров модели. Рассматриваются модели линейной регрессии. Тогда вектор параметров модели соответствует набору признаков модели. Ковариационная матрица параметров строится в предположении о вероятностном распределении вектора параметров. Исследуется, как будет меняться ковариационная матрица параметров модели при добавлении новых столбцов в матрицу плана. Для такой матрицы плана получаем расширенный вектор параметров модели и оценку матрицы ковариации параметров модели. Сравнивается ковариационная матрица для нерасширенного и расширенного вектора параметеров модели. Исследуется пространство параметров для информативных признаков.
Постановка задачи
Задана выборка .
Вектор свободных переменных 
, зависимая переменная 
. 
Предполгается, что 
где  --- некоторая параметрическая функция, 
 --- вектор ее параметров, 
 --- ошибка, распределенная нормально с нулевым математическим ожиданием и дисперсией 
, 
. Предполагается, что вектор параметров 
 --- нормальнораспределенный случайный вектор с нулевым математическим ожиданием и матрицей ковариаций 
.
Рассматривается класс линейных функций .
Наиболее вероятные параметры 
 имеют вид: 
Для такого набора параметров исследуется матрица ковариации , который мы тоже оцениваем, используя принцип максимального правдоподобия.
Описание алгоритма оценки матрицы ковариации
Для фиксированных гиперпарамтеров , 
 вектор наиболее вероятных параметров минимизирует функционал 
Набор наиболее вероятных гиперпараметров будем искать, максимизируя оценку правдоподобия по , 
здесь  --- гессиан функционала 
.
В предположении о диагональности матрицы  и гессиана 
,
, 
, приравняв производные по гиперпараметрам к нулю, получаем оценку для 
: 
здесь .
Так же получаем оценку : 
здесь 
Используя оценки вектора параметров при фиксированных гиперпарамтерах и гиперпараметров при фиксированных параметрах, выпишем итерационный алгоритм поиска наиболее вероятных параметров и гиперпараметров. Он состоит из шагов:
-  поиск вектора параметров, максимизирующих функционал 
,
 - поиск гиперпараметров, максимизирующих правдоподобие,
 - проверка критерия остановки.
 
Критерий остановки --- малое изменение функционала  для двух последовательных итераций алгоритма.
Исходный код и полный текст работы
Смотри также
Литература
|   |  Данная статья является непроверенным учебным заданием.
 До указанного срока статья не должна редактироваться другими участниками проекта MachineLearning.ru. По его окончании любой участник вправе исправить данную статью по своему усмотрению и удалить данное предупреждение, выводимое с помощью шаблона {{Задание}}. См. также методические указания по использованию Ресурса MachineLearning.ru в учебном процессе.  | 

