Вероятностные тематические модели (курс лекций, К.В.Воронцов)/2018
Материал из MachineLearning.
 (архив программы прошлого года)  | 
				м  (подзаголовок)  | 
			||
| Строка 1: | Строка 1: | ||
{{TOCright}}  | {{TOCright}}  | ||
| - | + | Программа спецкурса, прочитанного весной 2018 года студентам 2—5 курсов на кафедре «[[Математические методы прогнозирования (кафедра ВМиК МГУ)|Математические методы прогнозирования]]» [[ВМиК]] [[МГУ]].   | |
= Программа курса =  | = Программа курса =  | ||
Текущая версия
Программа спецкурса, прочитанного весной 2018 года студентам 2—5 курсов на кафедре «Математические методы прогнозирования» ВМиК МГУ.
Программа курса
Условием сдачи спецкурса является выполнение индивидуальных практических заданий.
Введение
Презентация: (PDF, 1,2 МБ) — обновление 15.02.2018.
Цели и задачи тематического моделирования.
- Понятие «темы», цели и задачи тематического моделирования.
 - Основные предположения. Гипотеза «мешка слов» (bag-of-words). Методы предварительной обработки текстов.
 - Вероятностное пространство. Тема как латентная (ненаблюдаемая) переменная. Гипотеза условной независимости.
 - Порождающая модель документа как вероятностной смеси тем.
 - Упрощённая вероятностная модель текста и элементарное решение обратной задачи
 - Постановка обратной задачи восстановления параметров модели по данным.
 
Математический инструментарий.
- Принцип максимума правдоподобия.
 - Условия Каруша–Куна–Таккера.
 - Униграммные модели коллекции и документа.
 
Аддитивная регуляризация тематических моделей.
- Теорема о необходимом условии максимума регуляризованного правдоподобия для ARTM.
 - EM-алгоритм и его элементарная интерпретация. Формула Байеса и частотные оценки условных вероятностей.
 - Вероятностный латентный семантический анализ (probabilistic latent semantic analysis, PLSA).
 - Рациональный ЕМ-алгоритм (встраивание Е-шага внутрь М-шага). Оффлайновый регуляризованный EM-алгоритм.
 - Онлайновый регуляризованный EM-алгоритм. Распараллеливание.
 - Библиотека BigARTM.
 
Обзор базовых инструментов
Александр Романенко, Мурат Апишев. Презентация: (zip, 0,6 МБ) — обновление 17.02.2017.
Предварительная обработка текстов
- Парсинг "сырых" данных.
 - Токенизация, стемминг и лемматизация.
 - Выделение энграмм.
 - Законы Ципфа и Хипса. Фильтрация словаря коллекции. Удаление стоп-слов.
 
Библиотека BigARTM
- Методологические рекоммендации по проведению экспериментов.
 - Установка BigARTM.
 - Формат и импорт входных данных.
 - Обучение простой модели (без регуляризации): создание, инициализация, настройка и оценивание модели.
 - Инструмент визуализации тематических моделей VisARTM. Основные возможности, демонстрация работы.
 
Дополнительный материал:
- Презентация: (PDF, 1,5 МБ) — обновление 17.03.2017.
 - Видео — обновление 22.03.2017.
 - Воркшоп по BigARTM на DataFest'4. Видео.
 
Аддитивная регуляризация тематических моделей
Презентация: (PDF, 3,1 МБ) — обновление 15.03.2018.
Теория ARTM
- Мультимодальные тематические модели
 - Регуляризаторы сглаживания и разреживания
 - Разделение тем на предметные и фоновые
 
Время и пространство
- Регуляризаторы времени
 - Эксперименты на коллекции пресс-релизов
 - Гео-пространственные модели
 
Иерархические тематические модели
- Нисходящая послойная стратегия
 - Оценивание качества тематических иерархий
 - Визуализация иерархии
 
Разведочный информационный поиск
Презентация: (PDF, 4,5 МБ) — обновление 15.03.2018.
Разведочный информационный поиск
- Концепция разведочного поиска
 - Визуализация больших текстовых коллекций
 - Сценарий разведочного поиска
 
Эксперименты с тематическим поиском
- Методика эксперимента
 - Построение тематической модели
 - Оптимизация гиперпараметров
 
Эксперименты с тематическими моделями
- Измерение качества тематической модели
 - Многокритериальное оценивание качества модели
 - Определение числа тем и регуляризатор отбора тем
 
Дополнительный материал:
- Разведочный информационный поиск (exploratory search). Видео.
 
Мультимодальные тематические модели
Презентация: (PDF, 1,4 МБ) — обновление 22.03.2018.
Мультиязычные тематические модели.
- Параллельные и сравнимые коллекции.
 - Регуляризаторы для учёта двуязычных словарей.
 - Кросс-язычный информационный поиск.
 
Зависимости, корреляции, связи.
- Тематические модели классификации и регрессии.
 - Модель коррелированных тем CTM (Correlated Topic Model).
 - Регуляризаторы гиперссылок и цитирования. Выявление тематических влияний в научных публикациях.
 
Социальные сети.
- Выявление тематических сообществ. Регуляризаторы для направленных и ненаправленных связей.
 - Регуляризаторы для выявления социальных ролей пользователей.
 
Тематические модели совстречаемости слов
Презентация: (PDF, 1,9 МБ) — обновление 29.03.2018.
Мультиграммные модели.
- Модель BigramTM.
 - Модель Topical N-grams (TNG).
 - Мультимодальная мультиграммная модель.
 
Автоматическое выделение терминов.
- Алгоритм TopMine для быстрого поиска частых фраз. Критерии выделения коллокаций.
 - Синтаксический разбор. Нейросетевой синтаксический анализатор SyntaxNet.
 - Критерии тематичности фраз.
 - Комбинирование синтаксической, статистической и тематической фильтрации фраз.
 
Тематические модели дистрибутивной семантики.
- Дистрибутивная гипотеза. Модели CBOW и SGNS в программе word2vec.
 - Модель битермов BTM (Biterm Topic Model) для тематизации коллекций коротких текстов.
 - Модели WNTM (Word Network Topic Model) и WTM (Word Topic Model). Связь с моделью word2vec.
 - Понятие когерентности (согласованности). Экспериментально установленная связь когерентности и интерпретируемости.
 - Регуляризаторы когерентности.
 
Дополнительный материал:
- Потапенко А. А. Векторные представления слов и документов. DataFest'4. Видео.
 
Байесовское обучение тематических моделей
Презентация: (PDF, 1,5 МБ) — обновление 13.04.2018.
EM-алгоритм.
- Задачи оценивания скрытых параметров вероятностной модели.
 - EM-алгоритм для максимизации неполного правдоподобия. Сходимость в слабом смысле.
 - EM-алгоритм для модели PLSA.
 - EM-алгоритм с регуляризацией.
 
Методы оценивания параметров в модели LDA.
- Распределение Дирихле и его свойства. Сопряжённость с мультиномиальным распределением.
 - Максимизация апостериорной вероятности для модели LDA.
 - Вариационный байесовский вывод для модели LDA.
 - Сэмплирование Гиббса для модели LDA.
 - Оптимизация гиперпараметров распределения Дирихле.
 
Языки описания вероятностных порождающих моделей.
- Графическая плоская нотация (plate notation). Stop using plate notation.
 - Псевдокод порождающего процесса (genarative story).
 - Постановки оптимизационных задач.
 - Как читать статьи по баейсовским моделям и строить эквивалентные ARTM-модели.
 
Дополнительный материал:
- Потапенко А. А. Байесовское обучение тематических моделей. 2016.
 
Тематическая сегментация
Презентация: (PDF, 2,0 МБ) — обновление 16.04.2018.
Модели связного текста.
- Тематическая модель предложений и модель коротких сообщений Twitter-LDA.
 - Контекстная документная кластеризация (CDC).
 - Метод лексических цепочек.
 
Тематическая сегментация.
- Метод TopicTiling. Критерии определения границ сегментов.
 - Критерии качества сегментации. Оптимизация параметров модели TopicTiling.
 
Позиционный регуляризатор в ARTM.
- Гипотеза о сегментной структуре текста.
 - Регуляризация и пост-обработка Е-шага. Формулы М-шага.
 - Примеры регуляризаторов Е-шага. Разреживание распределения p(t|d,w). Сглаживание тематики слов по контексту.
 
Визуализация и суммаризация тем
Презентация: (PDF, 6,7 МБ) — обновление 01.05.2018.
Средства визуализации тематических моделей.
- Минимальные средства визуализации.
 - Визуализация кластерных структур.
 - Визуализация темпоральных, иерархических, сегментирующих моделей.
 
Визуализатор VisARTM.
- Проект VisARTM.
 - Обзор средств визуализации VisARTM.
 - Задача построения тематического спектра.
 
Методы суммаризации текстов.
- Задачи автоматической суммаризации текстов. Подходы к суммаризации: extractive и abstractive.
 - Оценивание и отбор предложений для суммаризации. Релаксационный метод для многокритериальной дискретной оптимизации.
 - Тематическая модель предложений для суммаризации.
 - Критерии качества суммаризации ROUGE.
 
Анализ разнородных данных
Презентация: (PDF, 1,6 МБ) — обновление 03.05.2018.
Трёхматричные и гиперграфовые модели.
- Модели трёхматричных разложений. Понятие порождающей модальности.
 - Автор-тематическая модель (author-topic model).
 - Модель для выделения поведений объектов в видеопотоке.
 
Тематические модели транзакционных данных.
- Примеры транзакционных данных в рекомендательных системах, социальных и рекламных сетях.
 - Гиперграфовая модель ARTM. Теорема о необходимом условии максимума регуляризованного правдоподобия.
 - Анализ транзакционных данных для выявления паттернов экономического поведения клиентов банка. Видео.
 - Анализ банковских транзакционных данных для выявления видов деятельности компаний.
 
Определение числа тем.
- Регуляризатор отбора тем.
 - Эффект отбрасывания малых, дублирующих и линейно зависимых тем.
 - Сравнение с байесовской моделью HDP (Hierarchical Dirichlet Process).
 
Автоматическое именование тем (topic labeling).
- Формирование названий-кандидатов.
 - Максимизация релевантности, покрытия и различности.
 
Литература
- Воронцов К. В. Обзор вероятностных тематических моделей. 2018.
 - Hamed Jelodar, Yongli Wang, Chi Yuan, Xia Feng. Latent Dirichlet Allocation (LDA) and Topic modeling: models, applications, a survey. 2017.
 - Hofmann T. Probabilistic latent semantic indexing // Proceedings of the 22nd annual international ACM SIGIR conference on Research and development in information retrieval. — New York, NY, USA: ACM, 1999. — Pp. 50–57.
 - Blei D. M., Ng A. Y., Jordan M. I. Latent Dirichlet allocation // Journal of Machine Learning Research. — 2003. — Vol. 3. — Pp. 993–1022.
 - Asuncion A., Welling M., Smyth P., Teh Y. W. On smoothing and inference for topic models // Proceedings of the International Conference on Uncertainty in Artificial Intelligence. — 2009.
 - Янина А. О., Воронцов К. В. Мультимодальные тематические модели для разведочного поиска в коллективном блоге // Машинное обучение и анализ данных. 2016. T.2. №2. С.173-186.
 

