Коллекции документов для тематического моделирования
Материал из MachineLearning.
 (→Коллекция NIPS)  | 
				 (→Коллекция NIPS)  | 
			||
| Строка 61: | Строка 61: | ||
Полученные матрицы phi и theta могут использоваться для генерации полумодельных данных.  | Полученные матрицы phi и theta могут использоваться для генерации полумодельных данных.  | ||
| - | '''Формат данных:''' элементы разделены пробелами и символами новой строки.   | + | '''Формат данных:''' элементы разделены пробелами и символами новой строки. Размерность phi -- длина словаря на число тем, размерность theta -- число тем на число документов в обучении.  | 
| - | + | ||
| - | Размерность   | + | |
'''Статьи:'''  | '''Статьи:'''  | ||
Версия 16:16, 6 февраля 2015
 
  | 
Коллекции текстовых документов для экспериментов по тематическому моделированию.
Коллекция RuDis
Документы представляют собой коллекцию авторефератов диссертаций на русском языке.
Предварительная обработка: отбрасывание стоп-слов, лемматизация, формирование матрицы частот.
Все данные представлены в числовом виде, исходные тексты и словарь не прилагаются.
Элементами словаря являются отдельные слова (словосочетания не выделялись).
Длина словаря: 20211 слов.
Число документов: 2000 в обучающей выборке, 200 в контрольной выборке.
Разделение на обучающую выборку и контрольную — случайное.
Формат данных: заголовок коллекции содержит две строки:
число документов число слов в словаре
далее для каждого документа в файле записано по три строки:
число различных слов в документе идентификаторы слов через пробел, в порядке возрастания идентификаторов частоты соответствующих слов (сколько раз слово встретилось в документе) через пробел
Файлы: Архив RAR, 4.5 MБ
- RuDisOld_t.txt — обучающая выборка
 - RuDisOld_c.txt — контрольная выборка
 
Статьи: [1]
Коллекция NIPS
Документы представляют собой статьи конференции NIPS на английском языке.
Предварительная обработка: отбрасывание стоп-слов, стемминг, формирование матрицы частот.
Все данные представлены в числовом виде, исходные тексты и словарь не прилагаются.
Элементами словаря являются отдельные слова (словосочетания не выделялись).
Длина словаря: 13649 слов.
Число документов: 1566 в обучающей выборке, 174 в контрольной выборке.
Разделение на обучающую выборку и контрольную — случайное.
Формат данных: тот же, что для коллекции RuDis
Файлы: Архив RAR, 1.5 MБ
- NIPSOld_t.txt — обучающая выборка
 - NIPSOld_c.txt — контрольная выборка
 
На коллекции NIPS была построена тематическая модель PLSA со 100 темами из нескольких случайных приближений, а также регуляризованная модель с разреженными декоррелированными предметными и сглаженными фоновыми темами (90 и 10 тем соответственно). Полученные матрицы phi и theta могут использоваться для генерации полумодельных данных.
Формат данных: элементы разделены пробелами и символами новой строки. Размерность phi -- длина словаря на число тем, размерность theta -- число тем на число документов в обучении.
Статьи: [1]
Литература
См. также
- Тематическое моделирование
 - Вероятностные тематические модели (курс лекций, К.В.Воронцов). Текст: (PDF, 500 КБ). Презентация (PDF, 1 МБ).
 - К.В.Воронцов. Научный семинар по вероятностным тематическим моделям, 23 апреля 2013. (PDF, 2.0 МБ).
 - Лекция по латентному размещению Дирихле в рамках спецкурса БММО (PDF, 480 КБ).
 

