Коллекции документов для тематического моделирования
Материал из MachineLearning.
(nips) |
|||
| Строка 1: | Строка 1: | ||
| - | Коллекции документов для | + | {{TOCright}} |
| + | Коллекции текстовых документов для экспериментов по [[тематическое моделирование|тематическому моделированию]]. | ||
== Коллекция RuDis == | == Коллекция RuDis == | ||
| Строка 5: | Строка 6: | ||
Документы представляют собой коллекцию авторефератов диссертаций на русском языке. | Документы представляют собой коллекцию авторефератов диссертаций на русском языке. | ||
| - | Предварительная обработка: | + | Предварительная обработка: отбрасывание стоп-слов, лемматизация, формирование матрицы частот. |
| + | |||
Все данные представлены в числовом виде, исходные тексты и словарь не прилагаются. | Все данные представлены в числовом виде, исходные тексты и словарь не прилагаются. | ||
| - | |||
| - | Длина словаря 20211 слов. | + | Элементами словаря являются отдельные слова (словосочетания не выделялись). |
| + | |||
| + | Длина словаря: 20211 слов. | ||
Число документов: 2000 в обучающей выборке, 200 в контрольной выборке. | Число документов: 2000 в обучающей выборке, 200 в контрольной выборке. | ||
| + | |||
| + | Разделение на обучающую выборку и контрольную — случайное. | ||
'''Формат данных:''' | '''Формат данных:''' | ||
| Строка 17: | Строка 22: | ||
число документов | число документов | ||
число слов в словаре | число слов в словаре | ||
| - | для каждого документа в файле записано три строки: | + | далее для каждого документа в файле записано по три строки: |
число различных слов в документе | число различных слов в документе | ||
идентификаторы слов через пробел, в порядке возрастания идентификаторов | идентификаторы слов через пробел, в порядке возрастания идентификаторов | ||
| - | частоты соответствующих слов | + | частоты соответствующих слов (сколько раз слово встретилось в документе) через пробел |
'''Файлы:''' | '''Файлы:''' | ||
| - | [[Media:RuDis-collection.rar| | + | [[Media:RuDis-collection.rar|Архив RAR, 4.5 MБ]] |
| + | * RuDisOld_c.txt — обучающая выборка | ||
| + | * RuDisOld_t.txt — контрольная выборка | ||
'''Статьи:''' | '''Статьи:''' | ||
<ref name="potapenko13robust">Potapenko A. A., [[User:Vokov|Vorontsov K. V.]] Robust PLSA Performs Better Than LDA // 35th European Conference on Information Retrieval, [[http://ecir2013.org ECIR-2013]], Moscow, Russia, 24–27 March 2013. — Lecture Notes in Computer Science (LNCS), Springer Verlag-Germany, 2013. Pp. 784–787.</ref> | <ref name="potapenko13robust">Potapenko A. A., [[User:Vokov|Vorontsov K. V.]] Robust PLSA Performs Better Than LDA // 35th European Conference on Information Retrieval, [[http://ecir2013.org ECIR-2013]], Moscow, Russia, 24–27 March 2013. — Lecture Notes in Computer Science (LNCS), Springer Verlag-Germany, 2013. Pp. 784–787.</ref> | ||
| + | == Коллекция NIPS == | ||
| + | |||
| + | Документы представляют собой статьи конференции [[NIPS]] на английском языке. | ||
| + | |||
| + | Предварительная обработка: отбрасывание стоп-слов, стемминг, формирование матрицы частот. | ||
| + | |||
| + | Все данные представлены в числовом виде, исходные тексты и словарь не прилагаются. | ||
| + | |||
| + | Элементами словаря являются отдельные слова (словосочетания не выделялись). | ||
| + | |||
| + | Длина словаря: 13649 слов. | ||
| + | |||
| + | Число документов: 1566 в обучающей выборке, 174 в контрольной выборке. | ||
| + | |||
| + | Разделение на обучающую выборку и контрольную — случайное. | ||
| + | |||
| + | '''Формат данных:''' тот же, что для коллекции RuDis | ||
| + | |||
| + | '''Файлы:''' | ||
| + | [[Media:NIPS-collection.rar|Архив RAR, 1.5 MБ]] | ||
| + | * NIPSOld_c.txt — обучающая выборка | ||
| + | * NIPSOld_t.txt — контрольная выборка | ||
| + | |||
| + | '''Статьи:''' | ||
| + | <ref name="potapenko13robust"/> | ||
| + | |||
| + | == Литература == | ||
| + | <references/> | ||
== См. также == | == См. также == | ||
| Строка 34: | Строка 69: | ||
* К.В.Воронцов. Научный семинар по вероятностным тематическим моделям, 23 апреля 2013. '''[[Media:voron-viniti-23apr2013.pdf|(PDF, 2.0 МБ)]]'''. | * К.В.Воронцов. Научный семинар по вероятностным тематическим моделям, 23 апреля 2013. '''[[Media:voron-viniti-23apr2013.pdf|(PDF, 2.0 МБ)]]'''. | ||
* Лекция по латентному размещению Дирихле в рамках спецкурса [[bmmo|БММО]] [[Media:BMMO11_14.pdf|(PDF, 480 КБ)]]. | * Лекция по латентному размещению Дирихле в рамках спецкурса [[bmmo|БММО]] [[Media:BMMO11_14.pdf|(PDF, 480 КБ)]]. | ||
| - | |||
| - | |||
{{stub}} | {{stub}} | ||
Версия 14:32, 7 июня 2013
|
Коллекции текстовых документов для экспериментов по тематическому моделированию.
Коллекция RuDis
Документы представляют собой коллекцию авторефератов диссертаций на русском языке.
Предварительная обработка: отбрасывание стоп-слов, лемматизация, формирование матрицы частот.
Все данные представлены в числовом виде, исходные тексты и словарь не прилагаются.
Элементами словаря являются отдельные слова (словосочетания не выделялись).
Длина словаря: 20211 слов.
Число документов: 2000 в обучающей выборке, 200 в контрольной выборке.
Разделение на обучающую выборку и контрольную — случайное.
Формат данных: заголовок коллекции содержит две строки:
число документов число слов в словаре
далее для каждого документа в файле записано по три строки:
число различных слов в документе идентификаторы слов через пробел, в порядке возрастания идентификаторов частоты соответствующих слов (сколько раз слово встретилось в документе) через пробел
Файлы: Архив RAR, 4.5 MБ
- RuDisOld_c.txt — обучающая выборка
- RuDisOld_t.txt — контрольная выборка
Статьи: [1]
Коллекция NIPS
Документы представляют собой статьи конференции NIPS на английском языке.
Предварительная обработка: отбрасывание стоп-слов, стемминг, формирование матрицы частот.
Все данные представлены в числовом виде, исходные тексты и словарь не прилагаются.
Элементами словаря являются отдельные слова (словосочетания не выделялись).
Длина словаря: 13649 слов.
Число документов: 1566 в обучающей выборке, 174 в контрольной выборке.
Разделение на обучающую выборку и контрольную — случайное.
Формат данных: тот же, что для коллекции RuDis
Файлы: Архив RAR, 1.5 MБ
- NIPSOld_c.txt — обучающая выборка
- NIPSOld_t.txt — контрольная выборка
Статьи: [1]
Литература
См. также
- Тематическое моделирование
- Вероятностные тематические модели (курс лекций, К.В.Воронцов). Текст: (PDF, 500 КБ). Презентация (PDF, 1 МБ).
- К.В.Воронцов. Научный семинар по вероятностным тематическим моделям, 23 апреля 2013. (PDF, 2.0 МБ).
- Лекция по латентному размещению Дирихле в рамках спецкурса БММО (PDF, 480 КБ).

