Участник:Aplavin
Материал из MachineLearning.
| Строка 52: | Строка 52: | ||
''А.В.Плавин'' [http://lomonosov-msu.ru/archive/Lomonosov_2015/data/7087/uid87341_bae3db21889eadf45e7d7a52b20ac40bfb7c3041.pdf Отбор тем в вероятностных тематических моделях] // ''Конференция "Ломоносов-2015", апрель''  | ''А.В.Плавин'' [http://lomonosov-msu.ru/archive/Lomonosov_2015/data/7087/uid87341_bae3db21889eadf45e7d7a52b20ac40bfb7c3041.pdf Отбор тем в вероятностных тематических моделях] // ''Конференция "Ломоносов-2015", апрель''  | ||
| - | ''А.В.Плавин'' Энтропийный регуляризатор отбора тем в вероятностных тематических моделях // ''ММРО-17, сентябрь   | + | |
| + | |||
| + | == Осень 2015, 9 семестр ==  | ||
| + | |||
| + | === Энтропийный регуляризатор отбора тем  | ||
| + | в вероятностных тематических моделях ===  | ||
| + | |||
| + | В задачах машинного обучения важным элементом является  | ||
| + | определение структуры модели. В задачах регрессии и класси-  | ||
| + | фикации структурный параметр — это мощность оптимального  | ||
| + | подмножества признаков, в задачах кластеризации — число кла-  | ||
| + | стеров, в задачах матричного разложения — промежуточная раз-  | ||
| + | мерность матриц или число главных компонент. В данной работе  | ||
| + | рассматриваются методы обучения вероятностных тематических  | ||
| + | моделей коллекций текстовых документов, и в качестве струк-  | ||
| + | турного параметра выступает число тем. От выбора числа тем  | ||
| + | зависят такие характеристики качества тем, как интерпретируе-  | ||
| + | мость, согласованность, различность.  | ||
| + | В работе предлагается использовать энтропийный регуляриза-  | ||
| + | тор, который на каждой итерации обучения модели отбрасывает  | ||
| + | наименее значимые темы. Это позволяет верно определять зара-  | ||
| + | нее известное число тем для синтетических коллекций. Однако  | ||
| + | на реальных данных чётко определить оптимальное число тем,  | ||
| + | как правило не удаётся. Тем не менее, энтропийный регуляри-  | ||
| + | затор даёт более устойчивые значения числа тем, как в рамках  | ||
| + | одного запуска, так и при нескольких запусках из различных на-  | ||
| + | чальных приближений, по сравнению с моделью иерархического  | ||
| + | процесса Дирихле, обычно используемого для определения числа  | ||
| + | тем. Энтропийный регуляризатор имеет значимые преимущества  | ||
| + | в скорости вычислений, свободно сочетается с другими аддитив-  | ||
| + | ными регуляризаторами, и обладает свойством удалять в первую  | ||
| + | очередь линейно зависимые и расщеплённые темы, что способ-  | ||
| + | ствует повышению интерпретируемости модели.  | ||
| + | |||
| + | === Публикации ===  | ||
| + | |||
| + | ''А.В.Плавин'' Энтропийный регуляризатор отбора тем в вероятностных тематических моделях // ''ММРО-17, сентябрь''  | ||
Версия 08:18, 31 января 2016
Плавин Александр Викторович
МФТИ, ФУПМ, 174
Кафедра "Интеллектуальные системы"
Сайт plav.in
E-mail alexander@plav.in
Содержание | 
Научно-исследовательская работа
Весна 2014, 6 семестр
Оптимизация числа тем в вероятностных тематических моделях с помощью регуляризатора строкового разреживания
В работе исследуется возможность автоматического определения оптимального числа тем вероятностной тематической модели. В рамках подхода аддитивной регуляризации тематических моделей предлагается регуляризатор строкового разреживания, позволяющий постепенно сокращать число тем с избыточного начального приближения до оптимального значения. Проводятся вычислительные эксперименты на реалистичных модельных данных, иллюстрирующие устойчивое определение истинного числа тем в модели.
Осень 2014, 7 семестр
Оптимизация числа тем в вероятностных тематических моделях с помощью регуляризатора строкового разреживания
Проведены исследования энтропийной регуляризации (строкового разреживания) для определения числа тем в коллекции и самих этих тем. Вычислительные эксперименты на модельных и реальных данных подтверждают теоретические ожидания: определение числа тем на самом деле происходит, линейно-зависимые темы удаляются первыми.
Публикации
А.В.Плавин Text Structure Visualization by Topic Modeling, Технический отчёт // Сервер вычислительных экспериментов mvr.jmlda.org (дата обращения: 30.12.2014).
А.В.Плавин Оптимизация числа тем в вероятностных тематических моделях с помощью регуляризатора строкового разреживания // 57-я международная научная конференция МФТИ.
Весна 2015, 8 семестр
Отбор тем в задачах тематического моделирования
В данной работе предлагается метод определения оптимального числа тем в вероятностных тематических моделях, основанный на постепенном отборе тем. Используется подход аддитивной регуляризации тематических моделей, отбор тем в котором производится с помощью энтропийного регуляризатора. Поведение предлагаемого метода исследуется как с теоретической точки зрения, так и путём вычислительных экспериментов с использованием реальных текстовых коллекций. Показывается, что он действительно позволяет определять число тем, получаемые результаты устойчивы с нескольких точек зрения, а реализация метода вычислительно эффективна.
Бакалаврская диссертация
А.В.Плавин Отбор тем в задачах тематического моделирования // Готовится к подаче в JMLDA.
Публикации
Konstantin Vorontsov, Anna Potapenko, Alexander Plavin Additive Regularization of Topic Models for Topic Selection and Sparse Factorization, pdf // The Third International Symposium on Learning and Data Sciences (SLDS 2015), апрель
А.В.Плавин Отбор тем в вероятностных тематических моделях // Конференция "Ломоносов-2015", апрель
Осень 2015, 9 семестр
=== Энтропийный регуляризатор отбора тем в вероятностных тематических моделях ===
В задачах машинного обучения важным элементом является определение структуры модели. В задачах регрессии и класси- фикации структурный параметр — это мощность оптимального подмножества признаков, в задачах кластеризации — число кла- стеров, в задачах матричного разложения — промежуточная раз- мерность матриц или число главных компонент. В данной работе рассматриваются методы обучения вероятностных тематических моделей коллекций текстовых документов, и в качестве струк- турного параметра выступает число тем. От выбора числа тем зависят такие характеристики качества тем, как интерпретируе- мость, согласованность, различность. В работе предлагается использовать энтропийный регуляриза- тор, который на каждой итерации обучения модели отбрасывает наименее значимые темы. Это позволяет верно определять зара- нее известное число тем для синтетических коллекций. Однако на реальных данных чётко определить оптимальное число тем, как правило не удаётся. Тем не менее, энтропийный регуляри- затор даёт более устойчивые значения числа тем, как в рамках одного запуска, так и при нескольких запусках из различных на- чальных приближений, по сравнению с моделью иерархического процесса Дирихле, обычно используемого для определения числа тем. Энтропийный регуляризатор имеет значимые преимущества в скорости вычислений, свободно сочетается с другими аддитив- ными регуляризаторами, и обладает свойством удалять в первую очередь линейно зависимые и расщеплённые темы, что способ- ствует повышению интерпретируемости модели.
Публикации
А.В.Плавин Энтропийный регуляризатор отбора тем в вероятностных тематических моделях // ММРО-17, сентябрь

