Коллекции документов для тематического моделирования
Материал из MachineLearning.
 (→См. также)  | 
			|||
| (14 промежуточных версий не показаны.) | |||
| Строка 1: | Строка 1: | ||
| - | Коллекции документов для   | + | {{TOCright}}  | 
| + | Коллекции текстовых документов для экспериментов по [[тематическое моделирование|тематическому моделированию]].  | ||
== Коллекция RuDis ==  | == Коллекция RuDis ==  | ||
| Строка 5: | Строка 6: | ||
Документы представляют собой коллекцию авторефератов диссертаций на русском языке.   | Документы представляют собой коллекцию авторефератов диссертаций на русском языке.   | ||
| - | Предварительная обработка:   | + | Предварительная обработка: отбрасывание стоп-слов, лемматизация, формирование матрицы частот.  | 
| + | |||
Все данные представлены в числовом виде, исходные тексты и словарь не прилагаются.  | Все данные представлены в числовом виде, исходные тексты и словарь не прилагаются.  | ||
| - | |||
| - | Длина словаря 20211 слов.   | + | Элементами словаря являются отдельные слова (словосочетания не выделялись).   | 
| + | |||
| + | Длина словаря: 20211 слов.   | ||
Число документов: 2000 в обучающей выборке, 200 в контрольной выборке.  | Число документов: 2000 в обучающей выборке, 200 в контрольной выборке.  | ||
| + | |||
| + | Разделение на обучающую выборку и контрольную — случайное.  | ||
'''Формат данных:'''  | '''Формат данных:'''  | ||
| Строка 17: | Строка 22: | ||
 число документов  |  число документов  | ||
 число слов в словаре  |  число слов в словаре  | ||
| - | для каждого документа в файле записано три строки:  | + | далее для каждого документа в файле записано по три строки:  | 
 число различных слов в документе  |  число различных слов в документе  | ||
 идентификаторы слов через пробел, в порядке возрастания идентификаторов  |  идентификаторы слов через пробел, в порядке возрастания идентификаторов  | ||
| - |  частоты соответствующих слов  | + |  частоты соответствующих слов (сколько раз слово встретилось в документе) через пробел  | 
'''Файлы:'''   | '''Файлы:'''   | ||
| - | [[Media:RuDis-collection.rar|  | + | [[Media:RuDis-collection.rar|Архив RAR, 4.5 MБ]]  | 
| + | * RuDisOld_t.txt — обучающая выборка   | ||
| + | * RuDisOld_c.txt — контрольная выборка   | ||
'''Статьи:'''  | '''Статьи:'''  | ||
<ref name="potapenko13robust">Potapenko A. A., [[User:Vokov|Vorontsov K. V.]] Robust PLSA Performs Better Than LDA // 35th European Conference on Information Retrieval, [[http://ecir2013.org ECIR-2013]], Moscow, Russia, 24–27 March 2013. — Lecture Notes in Computer Science (LNCS), Springer Verlag-Germany, 2013.  Pp. 784–787.</ref>  | <ref name="potapenko13robust">Potapenko A. A., [[User:Vokov|Vorontsov K. V.]] Robust PLSA Performs Better Than LDA // 35th European Conference on Information Retrieval, [[http://ecir2013.org ECIR-2013]], Moscow, Russia, 24–27 March 2013. — Lecture Notes in Computer Science (LNCS), Springer Verlag-Germany, 2013.  Pp. 784–787.</ref>  | ||
| + | == Коллекция NIPS ==  | ||
| + | |||
| + | Документы представляют собой статьи конференции [[NIPS]] на английском языке.   | ||
| + | |||
| + | Предварительная обработка: отбрасывание стоп-слов, стемминг, формирование матрицы частот.  | ||
| + | |||
| + | Все данные представлены в числовом виде, исходные тексты и словарь не прилагаются.  | ||
| + | |||
| + | Элементами словаря являются отдельные слова (словосочетания не выделялись).   | ||
| + | |||
| + | Длина словаря: 13649 слов.   | ||
| + | |||
| + | Число документов: 1566 в обучающей выборке, 174 в контрольной выборке.  | ||
| + | |||
| + | Разделение на обучающую выборку и контрольную — случайное.  | ||
| + | |||
| + | '''Формат данных:''' тот же, что для коллекции RuDis  | ||
| + | |||
| + | '''Файлы:'''   | ||
| + | [[Media:NIPS-collection.rar|Архив RAR, 1.5 MБ]]  | ||
| + | * NIPSOld_t.txt — обучающая выборка   | ||
| + | * NIPSOld_c.txt — контрольная выборка   | ||
| + | |||
| + | == Матрицы Φ и Θ ==  | ||
| + | |||
| + | На коллекции NIPS была построена тематическая модель PLSA со 100 темами, а также модель ARTM с разреженными декоррелированными предметными и сглаженными фоновыми темами (90 и 10 соответственно).  | ||
| + | Полученные матрицы Φ и Θ могут использоваться для генерации полумодельных данных.  | ||
| + | |||
| + | '''Формат данных:''' элементы разделены пробелами и символами новой строки. Размерность Φ — длина словаря на число тем, размерность Θ — число тем на число документов в обучении.  | ||
| + | |||
| + | '''Файлы:'''  | ||
| + | * [[Медиа:Phi-theta-PLSA.rar | Матрицы модели PLSA]]  | ||
| + | * [[Медиа:Phi-theta-Reg.rar | Матрицы модели ARTM]]  | ||
| + |    | ||
| + | |||
| + | '''Статьи:'''  | ||
| + | <ref name="potapenko13robust"/>  | ||
| + | |||
| + | == Литература ==  | ||
| + | <references/>  | ||
== См. также ==  | == См. также ==  | ||
* [[Тематическое моделирование]]  | * [[Тематическое моделирование]]  | ||
| - | * [[  | + | * [[Аддитивная регуляризация тематических моделей]]  | 
| - | * К.В.  | + | * [[BigARTM]]  | 
| + | * ''Воронцов К. В.'' [[Media:voron17survey-artm.pdf|Вероятностное тематическое моделирование: теория регуляризации ARTM и библиотека с открытым кодом BigARTM]]. 2023.  | ||
* Лекция по латентному размещению Дирихле в рамках спецкурса [[bmmo|БММО]] [[Media:BMMO11_14.pdf|(PDF, 480 КБ)]].  | * Лекция по латентному размещению Дирихле в рамках спецкурса [[bmmo|БММО]] [[Media:BMMO11_14.pdf|(PDF, 480 КБ)]].  | ||
| - | |||
| - | |||
{{stub}}  | {{stub}}  | ||
Текущая версия
 
  | 
Коллекции текстовых документов для экспериментов по тематическому моделированию.
Коллекция RuDis
Документы представляют собой коллекцию авторефератов диссертаций на русском языке.
Предварительная обработка: отбрасывание стоп-слов, лемматизация, формирование матрицы частот.
Все данные представлены в числовом виде, исходные тексты и словарь не прилагаются.
Элементами словаря являются отдельные слова (словосочетания не выделялись).
Длина словаря: 20211 слов.
Число документов: 2000 в обучающей выборке, 200 в контрольной выборке.
Разделение на обучающую выборку и контрольную — случайное.
Формат данных: заголовок коллекции содержит две строки:
число документов число слов в словаре
далее для каждого документа в файле записано по три строки:
число различных слов в документе идентификаторы слов через пробел, в порядке возрастания идентификаторов частоты соответствующих слов (сколько раз слово встретилось в документе) через пробел
Файлы: Архив RAR, 4.5 MБ
- RuDisOld_t.txt — обучающая выборка
 - RuDisOld_c.txt — контрольная выборка
 
Статьи: [1]
Коллекция NIPS
Документы представляют собой статьи конференции NIPS на английском языке.
Предварительная обработка: отбрасывание стоп-слов, стемминг, формирование матрицы частот.
Все данные представлены в числовом виде, исходные тексты и словарь не прилагаются.
Элементами словаря являются отдельные слова (словосочетания не выделялись).
Длина словаря: 13649 слов.
Число документов: 1566 в обучающей выборке, 174 в контрольной выборке.
Разделение на обучающую выборку и контрольную — случайное.
Формат данных: тот же, что для коллекции RuDis
Файлы: Архив RAR, 1.5 MБ
- NIPSOld_t.txt — обучающая выборка
 - NIPSOld_c.txt — контрольная выборка
 
Матрицы Φ и Θ
На коллекции NIPS была построена тематическая модель PLSA со 100 темами, а также модель ARTM с разреженными декоррелированными предметными и сглаженными фоновыми темами (90 и 10 соответственно). Полученные матрицы Φ и Θ могут использоваться для генерации полумодельных данных.
Формат данных: элементы разделены пробелами и символами новой строки. Размерность Φ — длина словаря на число тем, размерность Θ — число тем на число документов в обучении.
Файлы:
Статьи: [1]
Литература
См. также
- Тематическое моделирование
 - Аддитивная регуляризация тематических моделей
 - BigARTM
 - Воронцов К. В. Вероятностное тематическое моделирование: теория регуляризации ARTM и библиотека с открытым кодом BigARTM. 2023.
 - Лекция по латентному размещению Дирихле в рамках спецкурса БММО (PDF, 480 КБ).
 

