Участник:Ryskina
Материал из MachineLearning.
 (Новая: Рыскина М.Н.  '''МФТИ''', '''ФУПМ'''  Кафедра '''"Интеллектуальные системы"'''  Mailto: m.ryskina@gmail.com)  | 
				 (→Отчеты о научно-исследовательской работе)  | 
			||
| (5 промежуточных версий не показаны.) | |||
| Строка 1: | Строка 1: | ||
Рыскина М.Н.  | Рыскина М.Н.  | ||
| - | + | МФТИ, ФУПМ, 074  | |
| - | Кафедра   | + | Кафедра "Интеллектуальные системы"  | 
Mailto: m.ryskina@gmail.com  | Mailto: m.ryskina@gmail.com  | ||
| + | |||
| + | == Отчеты о научно-исследовательской работе  ==  | ||
| + | |||
| + | === Весна 2013, 6-й семестр ===  | ||
| + | |||
| + | '''Разметка библиографических записей с помощью логических алгоритмов'''  | ||
| + | |||
| + | Работа посвящена восстановлению библиографических записей BibTeX по их текстовому представлению, то есть выделению фрагментов, соответствующих различным полям формы BibTeX. Для сегментации записей применяется подход bag-of-words. Строится бинарная матрица объектов-признаков, где объектами являются слова, а признаками - срабатывание некоторых регулярных выражений из заданного набора. Для классификации применяется алгоритм CART, строящий бинарное решающее дерево.  | ||
| + | |||
| + | '''Публикация'''  | ||
| + | |||
| + | ''Рыскина М.Н.''  | ||
| + | [http://svn.code.sf.net/p/mlalgorithms/code/Ryskina2013Txt2Bib/doc/Ryskina2013Txt2Bib.pdf Разметка библиографических записей с помощью логических алгоритмов]'' // Machinelearning.ru, 2013.''  | ||
| + | |||
| + | === Осень 2013, 7-й семестр ===  | ||
| + | |||
| + | '''Создание тематической модели на основе PLSA'''  | ||
| + | |||
| + | В данном проекте строится тематическая модель на основе вероятностного латентного семантического анализа. Корпус текстовых документов представлен в виде матрицы распределения слов по документам, затем с помощью онлайновой модификации PLSA-EM-алгоритма она разложена на матрицы распределения слов по темам и тем по документам.   | ||
| + | По результатам построения создано приложение, определяющее по текстовому фрагменту его тематический профиль.  | ||
| + | |||
| + | '''Публикация'''  | ||
| + | |||
| + | ''Рыскина М. Н.'' Создание тематической модели на основе PLSA: технический отчет // Вычислительный сервер журнала "Машинное обучение и анализ данных" [Электронный ресурс] URL: [http://193.233.212.81/ mvr.jmlda.org] (дата обращения: 26.12.2013).  | ||
| + | |||
| + | '''Разработка и оптимизация методики оценивания интерперетируемости вероятностных тематических моделей'''  | ||
| + | |||
| + | Исследуются методы оценивания интерпретируемости моделей, предлагаются модификации, повышающие интерпретируемость. Ищется коррелирующий с интерпретируемостью функционал качества для применения в последующей оптимизации ВТМ.   | ||
| + | Формализована постановка задачи, предложены методики для исследования на первом этапе численного эксперимента.  | ||
| + | |||
| + | === Весна 2014, 8-й семестр ===  | ||
| + | |||
| + | '''Публикация'''  | ||
| + | |||
| + | ''Рыскина М. Н.'' Регуляризация вероятностных тематических моделей для повышения устойчивости и интерпретируемости // [http://jmlda.org/ Машинное обучение и анализ данных]. – 2014 (подано в редакцию).  | ||
| + | |||
| + | В данной работе на модельных и полумодельных данных исследуется устойчивость и интерпретируемость тематических моделей. Понятие интерпретируемости определяется через характеристики структуры матриц. Оценивается качество сходимости алгоритмов и их комбинаций, качество восстановления исходных матриц и структуры их разреженности. Рассмотрено влияние различных комбинаций регуляризаторов разреживания, декоррелирования и частичного обучения на сходимость. Сделан вывод, что в условиях, приближенных к реальным, регуляризация позволяет существенно улучшить качество восстановления и устойчивость.  | ||
Текущая версия
Рыскина М.Н.
МФТИ, ФУПМ, 074
Кафедра "Интеллектуальные системы"
Mailto: m.ryskina@gmail.com
Содержание | 
Отчеты о научно-исследовательской работе
Весна 2013, 6-й семестр
Разметка библиографических записей с помощью логических алгоритмов
Работа посвящена восстановлению библиографических записей BibTeX по их текстовому представлению, то есть выделению фрагментов, соответствующих различным полям формы BibTeX. Для сегментации записей применяется подход bag-of-words. Строится бинарная матрица объектов-признаков, где объектами являются слова, а признаками - срабатывание некоторых регулярных выражений из заданного набора. Для классификации применяется алгоритм CART, строящий бинарное решающее дерево.
Публикация
Рыскина М.Н. Разметка библиографических записей с помощью логических алгоритмов // Machinelearning.ru, 2013.
Осень 2013, 7-й семестр
Создание тематической модели на основе PLSA
В данном проекте строится тематическая модель на основе вероятностного латентного семантического анализа. Корпус текстовых документов представлен в виде матрицы распределения слов по документам, затем с помощью онлайновой модификации PLSA-EM-алгоритма она разложена на матрицы распределения слов по темам и тем по документам. По результатам построения создано приложение, определяющее по текстовому фрагменту его тематический профиль.
Публикация
Рыскина М. Н. Создание тематической модели на основе PLSA: технический отчет // Вычислительный сервер журнала "Машинное обучение и анализ данных" [Электронный ресурс] URL: mvr.jmlda.org (дата обращения: 26.12.2013).
Разработка и оптимизация методики оценивания интерперетируемости вероятностных тематических моделей
Исследуются методы оценивания интерпретируемости моделей, предлагаются модификации, повышающие интерпретируемость. Ищется коррелирующий с интерпретируемостью функционал качества для применения в последующей оптимизации ВТМ. Формализована постановка задачи, предложены методики для исследования на первом этапе численного эксперимента.
Весна 2014, 8-й семестр
Публикация
Рыскина М. Н. Регуляризация вероятностных тематических моделей для повышения устойчивости и интерпретируемости // Машинное обучение и анализ данных. – 2014 (подано в редакцию).
В данной работе на модельных и полумодельных данных исследуется устойчивость и интерпретируемость тематических моделей. Понятие интерпретируемости определяется через характеристики структуры матриц. Оценивается качество сходимости алгоритмов и их комбинаций, качество восстановления исходных матриц и структуры их разреженности. Рассмотрено влияние различных комбинаций регуляризаторов разреживания, декоррелирования и частичного обучения на сходимость. Сделан вывод, что в условиях, приближенных к реальным, регуляризация позволяет существенно улучшить качество восстановления и устойчивость.

