Вероятностный латентный семантический анализ
Материал из MachineLearning.
Вероятностный латентный семантический анализ (англ. Probabilistic Latent Semantic Analysis, PLSA) - вероятностная тематическая модель представления текста на естественном языке. Модель называется латентной, так как предполагает введение скрытого (латентного) параметра - темы. Модель предложена Томасом Хофманном в 1999 году[1]. Применяется в задаче тематического моделирования.
Содержание | 
Формальная постановка задачи
Пусть  — множество (коллекция) текстовых документов, 
 — множество (словарь) всех употребляемых в них терминов (слов или словосочетаний). Каждый документ 
 представляет собой последовательность 
 терминов (
) из словаря W. Термин может повторяться в документе много раз.
Пусть существует конечное множество тем , и каждое употребление термина 
 в каждом документе 
 связано с некоторой темой 
, которая не известна. Формально тема определяется как дискретное (мультиномиальное) вероятностное распределение в пространстве слов заданного словаря 
[1].
Введем дискретное вероятностное пространство .  Тогда коллекция документов может быть рассмотрена как множество троек 
, выбранных случайно и независимо из дискретного распределения 
. 
При этом документы 
 и термины 
 являются наблюдаемыми переменными, тема 
 является латентной (скрытой) переменной.  
Требуется  найти распределения терминов в темах  для всех тем 
 и распределения тем в документах 
 для всех документов 
. При этом делается ряд допущений.
С учетом гипотезы условной независимости  по формуле полной вероятности получаем вероятностную модель порождения документа 
:
Введем следующие обозначения:
- число троек
во всей коллекции. Другими словами, это число поялвений термина
в связи с темой
в документе
;
- число вхождений термина
в документ
;
- число вохждений всех терминов, связанных с темой
в документ
;
- число поялвений термина
в связи с темой
во всех документах коллеккции
;
- число вхожений терина
в коллекцию;
- длина документа
;
- «длина темы»
, то есть число появления терминов в коллекции, связанных с темой
;
- длина коллекции.
Максимизация правдоподобия
Правдоподобие — это плотность распределения выборки :
Рассмотрим вероятностную тематическую модель , где
- искомая матрица терминов тем,
- искомая матрица тем документов,
.
Запишем задачу максимизации правдоподобия
, где
-  
— нормировочный множитель, зависящий только от чисел
 
С учетом (1) и того факта, что  не зависит от параметров 
 прологарифмируем правдоподобие, получив задачу максимизации:
при ограничениях неотрицательности и нормировки
-  
.
 
Алгоритм
Недостатки
Примечания

