Коллекции документов для тематического моделирования
Материал из MachineLearning.
(Различия между версиями)
												
			
			 (См. также)  | 
				 (RuDis)  | 
			||
| Строка 1: | Строка 1: | ||
Коллекции документов для тематического моделирования  | Коллекции документов для тематического моделирования  | ||
| + | |||
| + | == Коллекция RuDis ==  | ||
| + | |||
| + | Документы представляют собой коллекцию авторефератов диссертаций на русском языке.   | ||
| + | |||
| + | Предварительная обработка: стемминг, лемматизация, формирование матрицы частот.  | ||
| + | Все данные представлены в числовом виде, исходные тексты и словарь не прилагаются.  | ||
| + | Элементами словаря являются отдельные слова.   | ||
| + | |||
| + | Длина словаря 20211 слов.   | ||
| + | |||
| + | Число документов: 2000 в обучающей выборке, 200 в контрольной выборке.  | ||
| + | |||
| + | '''Формат данных:'''  | ||
| + | заголовок коллекции содержит две строки:  | ||
| + |  число документов  | ||
| + |  число слов в словаре  | ||
| + | для каждого документа в файле записано три строки:  | ||
| + |  число различных слов в документе  | ||
| + |  идентификаторы слов через пробел, в порядке возрастания идентификаторов  | ||
| + |  частоты соответствующих слов, т.е. сколько раз слово встретилось в документе  | ||
| + | |||
| + | '''Файлы:'''   | ||
| + | [[Media:RuDis-collection.rar|(RAR, 4.5 MБ)]].  | ||
| + | |||
| + | '''Статьи:'''  | ||
| + | <ref name="potapenko13robust">Potapenko A. A., [[User:Vokov|Vorontsov K. V.]] Robust PLSA Performs Better Than LDA // 35th European Conference on Information Retrieval, [[http://ecir2013.org ECIR-2013]], Moscow, Russia, 24–27 March 2013. — Lecture Notes in Computer Science (LNCS), Springer Verlag-Germany, 2013.  Pp. 784–787.<ref/>  | ||
| Строка 7: | Строка 34: | ||
* К.В.Воронцов. Научный семинар по вероятностным тематическим моделям, 23 апреля 2013. '''[[Media:voron-viniti-23apr2013.pdf|(PDF, 2.0 МБ)]]'''.  | * К.В.Воронцов. Научный семинар по вероятностным тематическим моделям, 23 апреля 2013. '''[[Media:voron-viniti-23apr2013.pdf|(PDF, 2.0 МБ)]]'''.  | ||
* Лекция по латентному размещению Дирихле в рамках спецкурса [[bmmo|БММО]] [[Media:BMMO11_14.pdf|(PDF, 480 КБ)]].  | * Лекция по латентному размещению Дирихле в рамках спецкурса [[bmmo|БММО]] [[Media:BMMO11_14.pdf|(PDF, 480 КБ)]].  | ||
| + | |||
| + | <references/>  | ||
{{stub}}  | {{stub}}  | ||
Версия 13:33, 7 июня 2013
Коллекции документов для тематического моделирования
Коллекция RuDis
Документы представляют собой коллекцию авторефератов диссертаций на русском языке.
Предварительная обработка: стемминг, лемматизация, формирование матрицы частот. Все данные представлены в числовом виде, исходные тексты и словарь не прилагаются. Элементами словаря являются отдельные слова.
Длина словаря 20211 слов.
Число документов: 2000 в обучающей выборке, 200 в контрольной выборке.
Формат данных: заголовок коллекции содержит две строки:
число документов число слов в словаре
для каждого документа в файле записано три строки:
число различных слов в документе идентификаторы слов через пробел, в порядке возрастания идентификаторов частоты соответствующих слов, т.е. сколько раз слово встретилось в документе
Файлы: (RAR, 4.5 MБ).
Статьи: [1]

