Оценка параметров смеси моделей
Материал из MachineLearning.
 (→Оценка параметров линейных моделей)  | 
			|||
| Строка 94: | Строка 94: | ||
</tex>  | </tex>  | ||
| - | ==Оценка параметров линейных моделей==  | + | ==Оценка параметров смеси линейных моделей==  | 
| + | Линейная модель имеет вид:  | ||
| + | |||
| + | <tex>  | ||
| + | 	\vec{y} = X\vec{w} + \vec{\eps},   | ||
| + | </tex>  | ||
| + | |||
| + | где <tex>\vec{\eps} \sim \mathcal{N}(\vec{0}, B)</tex> --- вектор нормально распределенных ошибок. В данной постановке вектор <tex>\vec{y}</tex> является нормальным с математическим ожиданием  | ||
| + | |||
| + | <tex>\mathsf{E}(y | \vec{x}) = \mu = \vec{x}^{T}\vec{w}</tex>, и корреляционной матрицей <tex>B</tex>.  | ||
| + | |||
| + | <tex>  | ||
| + | 	p(\vec{y} | X, \vec{w}) = \frac{1}{(2\pi)^{\frac{n}{2}} \sqrt{|\textrm{det}B|}}  | ||
| + | 		\exp\left(-\frac{1}{2}  (\vec{y} - X\vec{w})^{T} B (\vec{y} - X\vec{w}) \right).    | ||
| + | </tex>  | ||
| + | |||
| + | Шаг <tex>M</tex> алгоритма примет следующий вид:  | ||
| + | |||
| + | <tex>  | ||
| + | 	G_k \ln\left[ \frac{1}{(2\pi)^{\frac{n}{2}} \sqrt{|\textrm{det}B|}}\right]  | ||
| + | 		-\frac{1}{2} \left(G_k (\vec{y} - X\vec{w})^{T} B (\vec{y} - X\vec{w}) \right) \rightarrow \max_{\vec{w}}   | ||
| + | </tex>  | ||
| + | |||
| + | Первое слагаемое не зависит от <tex>\vec{w}_k</tex>, его можно не учитывать. Преобразование второго слагаемого дает  | ||
| + | |||
| + | <tex>  | ||
| + | 	\frac{1}{2} \vec{w}^{T} X^{T} G_k B X \vec{w} - \vec{w}^{T} X^{T} G_k B \vec{y} \rightarrow \min_{\vec{w}}   | ||
| + | </tex>  | ||
| + | |||
| + | Задача квадратична по <tex>\vec{w}</tex>, решение находится аналитически  | ||
| + | |||
| + | <tex>  | ||
| + | 	\vec{w}^* = \left( X^{T} G_k B X \right)^{-1} G_k B X \vec{y}.   | ||
| + | </tex>  | ||
==Оценка параметров обобщенно-линейных моделей==  | ==Оценка параметров обобщенно-линейных моделей==  | ||
Версия 20:17, 6 декабря 2011
 
  | 
Введение
В случае, когда одной модели для описания данных не хватает, используют смеси моделей. Предполагается, что исходная зависимость выражается формулой:
где  --- вероятность принадлежности модели 
.
Далее предполагается, что объекты в выборке независимы и плотность совместного распределения преобразуется в произведение плотностей распределения каждого объекта.
Введем функцию правдоподобия  как логарифм плотности вероятности данных.
Обозначим через  вероятность того, что объект 
 был порожден компонентой 
, 
 --- вероятность того, что 
-объект порожден 
-компонентой. Каждый объект был порожден какой-либо моделью, по формуле полной вероятности
Для произвольного объекта  вероятность его получения моделью 
 по формуле условной вероятности равна:
Подставим это равенство в формулу Байеса для 
Для определения параметров смеси необходимо решить задачу максимизации правдоподобия , для этого выпишем функцию Лагранжа:
Приравняем производные по  и 
 функции Лагранжа к нулю получим, что:
и оптимизационная задача для нахождения параметров модели имеет вид:
В общем случае задача оптимизации  трудна, для её решения используют EM-алгоритм, заключающийся в итеративном повторении двух шагов. На 
-шаге вычисляются ожидаемые значения вектора скрытых переменных 
 по текущему приближения параметров моделей 
. На 
-шаге решается задача максимизации правдоподобия 
 при начальном приближении параметров моделей и значений 
.
-шагу соответствует выражение
-шаг заключается в оптимизации параметров распределений.
Формула на -шаге может упроститься для случая конкретного распределения. Для упрощения дальнейших рассуждений введем обозначения
Оценка параметров смеси линейных моделей
Линейная модель имеет вид:
где  --- вектор нормально распределенных ошибок. В данной постановке вектор 
 является нормальным с математическим ожиданием
, и корреляционной матрицей 
.
Шаг  алгоритма примет следующий вид:
Первое слагаемое не зависит от , его можно не учитывать. Преобразование второго слагаемого дает
Задача квадратична по , решение находится аналитически
Оценка параметров обобщенно-линейных моделей
Оценка параметров смеси экспертов
Литература
- Bishop, C. Pattern Recognition And Machine Learning. Springer. 2006., p 654 - 676
 - Nelder, John; Wedderburn, Robert (1972). "Generalized Linear Models". Journal of the Royal Statistical Society. Series A (General) (Blackwell Publishing)
 - Воронцов~К.~В. "Курс лекций по машинному обучению". стр. 32 - 37
 
|   |  Данная статья является непроверенным учебным заданием.
 До указанного срока статья не должна редактироваться другими участниками проекта MachineLearning.ru. По его окончании любой участник вправе исправить данную статью по своему усмотрению и удалить данное предупреждение, выводимое с помощью шаблона {{Задание}}. См. также методические указания по использованию Ресурса MachineLearning.ru в учебном процессе.  | 

