Участник:Strijov/Drafts2

Материал из MachineLearning.

Содержание

1 2015
2 2014
3 2013
- 3.1 Моя первая публикация с кросс-рецензированием
- 3.2 Задачи
4 2012
5 2011

2015

Автор	Тема научной работы	Ссылка	Консультант	Рецензент	ДЗ-1	ДЗ-2 (Номер задачи)	Буквы	Сумма	Оценка
Бернштейн Юлия	Методы определения характеристик фибринолиза по последовательности изображений крови in vitro	Матвеев И. А.	Соломатин	1	3 (8)	AILSBRCVTDE	11	10
Бочкарев Артем	Структурное обучение при порождении моделей	[1] (no code), paper, slides	Варфоломеева Анна, Бахтеев Олег	Исаченко	2	2 (7)	A+I++LS+BRCVT+DS	9.25	10
Гончаров Алексей	Метрическая классификация временных рядов	code, paper, slides	Мария Попова	Задаянчук	1.5	1 (4)	AILSBRCVTDSW	12	10
Двинских Дарина	Повышение качества прогнозирования с использованием групп товаров	code, paper, slides	Каневский Д. Ю.	Смирнов	0.5	3 (7)	AILSBRCVTDEHS	14	10
Ефимов Юрий	Поиск внешней и внутренней границ радужки на изображении глаза методом парных градиентов	code, paper, slides	Матвеев И. А.	Нейчев			AILSBRCVTDEW	12	10
Жариков Илья	Проверка соответствия электрокардиографа требованиям диагностической системы «Скринфакс» и оценка качества электрокардиограмм.	code, paper, slides	Ишкина Шаура	Бочкарев	3.5	3 (5)	AIL+SBRCVTDEHSW	14.25	10
Задаянчук Андрей	Выбор оптимальной модели классификации физической активности	code, paper, slides	Мария Попова	Гончаров	2	0 (17)	AI-LSB+RCVTD	10	10
Златов Александр	Построение иерархической модели крупной конференции	code, paper, slides	Арсентий Кузьмин	Двинских	1.5	3 (14)	AI+L+SBRC++V+TDESW	14.25	10
Исаченко Роман	Метрическое обучение и снижение размерности пространства в задачах кластеризации временных рядов	code, paper, slides	Катруца Александр	Жариков	3.5	3 (14)	A-I+L+S-BR+CVTDEHSW	14.25	10
Нейчев Радослав	Отбор признаков в прогнозировании временных рядов c использованием экзогенных факторов	code, paper, slides	Катруца Александр	Ефимов	1	3 (9)	AI-L-SBRCVTDEHSW	13.5	10
Подкопаев Александр	Прогнозирование четвертичных структур белков	code, paper, slides	Ю. В. Максимов	Решетова	3.5	3 (11)	AILS+B+RCVTDEHS	13.5	10
Решетова Дарья	Методы многоклассовой классификации с улучшенными оценками сходимости в задачах частичного обучения	code, paper, slides	Максимов Юрий	Камзолов	2.5	3 (10)	AIL++SB+RCVT++DEHS-	14	10
Смирнов Евгений	Тематическая модель интересов постоянных пользователей мобильного приложения	code, paper, slides	Виктор Сафронов	Златов	1	1 (4)	AILSBRCVTWDE	11.25	10
Соломатин Иван	Определение области затенения радужки классификатором локальных текстурных признаков	code, paper, slides	Матвеев И. А.	Бернштейн		3 (9)	AILSBRCVTDE	11	10
Черных Владимир	Тестирование непараметрических алгоритмов прогнозирования временных рядов в условиях нестационарности	code, paper, slides	Стенина Мария	Шишковец	3.5	3 (4)	A+I+LSBRCVT+DE++H++	13.75	10
Шишковец Светлана	Регуляризация линейного наивного байесовского классификатора.	code, paper, slides	Михаил Усков, Константин Воронцов	Черных	3.5	2 (9)	A+I+L+SBR+CV+TD+E+H+S	15	10
Камзолов Дмитрий	Новые алгоритмы для задачи ранжирования веб-страниц	—	Александр Гасников, Юрий Максимов	Подкопаев			AILSB+RCVT+DEHS--	13	8
Сухарева Анжелика	Классификация научных текстов по отраслям знаний	code, paper, slides	Сергей Царьков		0.5		AILSBRCVTDEH		9

Задача 1

Название: Повышение качества прогнозирования спроса с использованием групп товаров
Задача:

Дано:

1. Временные ряды продаж нескольких группам товаров в одном гипермаркете. Также для каждого товара известны периоды дефицита, периоды воздействия на спрос календарных праздников и периоды проведения. маркетинговых акций. Также известен товарный классификатор: дерево групп товаров, где сами товары являются листьями.
2. Алгоритм прогнозирования, который используется для построения прогнозов спроса по этим товарам: самоадаптивное экспоненциальное сглаживание (модель Тригга-Лича, см. [1])
3. Функция потерь, по которой измеряется качество прогнозов: MAPE.
4. Требования к построению прогнозов: прогнозы требуется строить понедельно на 4 недели вперёд (в начале текущей недели требуется построить прогноз суммарного спроса на следующую неделю, неделю через одну, через две, через 3).

Гипотеза: спрос на отдельные товары слишком неустойчив, чтобы выявить характерную для них сезонность. Предлагается использовать данные о группах товаров, чтобы точнее определить параметры сезонности. Замечание: возможны и другие варианты повышения качества прогнозирования за счёт работы с группами товаров. Задача заключается в повышении качества прогнозирования в рамках поставленной задачи путём учёта эффекта взаимозаменяемости товаров, по сравнению с базовым алгоритмом. Результат можно считать достигнутым, если показано статистически значимое повышение качества при построении серии прогнозов (не менее 20) по каждому временному ряду скользящим контролем.

Данные:
1. Данные о продажах нескольких товарных групп в гипермаркете крупной торговой сети: https://drive.google.com/file/d/0B5YjPespcL83X3pHaE1aRzBUaDg/view?usp=sharing
Литература:
1. Лукашин Ю. П. Адаптивные методы краткосрочного прогнозирования временных рядов. — М.: Финансы и статистика, 2003.
2. http://www.machinelearning.ru/wiki/index.php?title=%D0%9C%D0%BE%D0%B4%D0%B5%D0%BB%D1%8C_%D0%A2%D1%80%D0%B8%D0%B3%D0%B3%D0%B0-%D0%9B%D0%B8%D1%87%D0%B0
3. Nitin Patel, Mahesh Kumar, Rama Ramakrishnan. Clustering models to improve forecasts in retail merchandising. http://www.cytel.com/Papers/INFORMS_Prac_%2004.pdf
4. Kumar M., Error-based Clustering and Its Application to Sales Forecasting in Retail Merchandising. PhD Thesis. http://books.google.ru/books/about/Error_based_Clustering_and_Its_Applicati.html?id=6252NwAACAAJ&redir_esc=y
Базовой алгоритм: Предлагется использовать модель сезонности [3] в сочетании с моделью Тригга-Лича в качестве алгоритма прогнозирования ряда без сезонности ([1] и [2]). При этом возможны 3 варианта алгоритма, в зависимости от способа оценки сезонности:
1. Сезонность оценивается по самому ряду продаж. Для товаров с "короткой" историей оценка сезонности не выполняется.
2. Сезонность оценивается по группе товаров, исходя из классификатора товарных групп (нижний уровень классификатора)
3. Сезонность оценивается по кластерам, исходя из методики [3], [4].
Решение: Требуется реализовать объединение модели сезонности [3] и модели Тригга-Лича в качестве алгоритма прогнозирования ряда без сезонности ([1] и [2]), с 3-мя вариантами анализа сезонности, описанными выше. При построение сезонных профилей необходимо исключать периоды маркетинговых акций (иначе может быть существенное искажение сезонности). Дальше понадобится серия экспериментов с анализом качества на реальных данных. При анализе качества можно исключать периоды проведения праздников и маркетинговых акций. По итогам экспериментов, возможно, потребуется адаптация алгоритма кластеризации.
Новизна: Построение самоадаптивного алгоритма прогнозирования с учётом сезонности, выявляемой путём кластерного анализа.
Консультант: Каневский Д.Ю.

Задача 2

Название: Исследование связи онкологических заболеваний и экологической ситуации по пространственно-временной выборке
Задача: Дана матрица с оценками экологической обстановки и данными по средней заболеваемости онкологией для каждого района Ростовской области за несколько лет. Оценки экологической обстановки содержат значительное количество шума. Оценки экологической обстановки выполнены в ранговых шкалах. Требуется построить регрессионную модель для оценки количества онкозаболеваний, которая бы учитывала экологическую обстановку в районе, соседство с другими районами и тенденцию изменения параметров на протяжении временного ряда.
Данные: таблица с данными об экологической ситуации и количестве онкологических заболеваний в Ростовской области.
Литература:
- http://www.scielosp.org/pdf/aiss/v47n2/v47n2a10.pdf - Ecological studies of cancer incidence in an area interested by dumping waste sites in Campania (Italy)
- http://lasi.lynchburg.edu/shahady_t/public/Breast%20Cancer.pdf - Incidence of human cancer in correlation with ecological integrity in a metropolitan population
- http://homepages.inf.ed.ac.uk/rbf/CVonline/LOCAL_COPIES/SUBBARAO1/HeivReview.pdf - Heteroscedastic Errors-in-Variables Regression
- http://en.wikipedia.org/wiki/Errors-in-variables_models - википедия: модели с ошибками в независимых переменных
- http://www.cardiff.ac.uk/maths/resources/Gillard_Tech_Report.pdf - An Historical Overview of Linear Regression with Errors in both Variables
- http://arxiv.org/pdf/1212.5049v1.pdf - A Partial Least Squares Algorithm Handling Ordinal Variables Also In Presence Of A Small Number Of Categories
- [2] - википедия: Расстояние Махаланобиса
- http://see.stanford.edu/materials/aimlcs229/cs229-hmm.pdf - Hidden Markov Models Fundamentals
Базовой алгоритм: Сравнений с базовым алгоритмом проводить не предполагается
Решение: Один из алгоритмов регрессии из обзора (3-й пункт литературы). Трансформацию порядковых признаков в линейные можно найти в пункте 4 литературы
Новизна: В отличие от существующих работ, в основном использующих только наборы признаков, но не географическое соседство с загрязненными районами и динамику изменения окружающей среды, в данной работе предлагается провести анализ проблемы с учетом этих факторов.
Консультант: Олег Бахтеев.

Задача 3

Название: Получение оценки разреженной ковариационной матрицы для нелинейных моделей (нейросетей).
Задача: Предложить метод оценки ковариационной матрицы параметров модели общего вида для случая линейной регрессии, логистической регрессии, общих нелинейных моделей, включая нейросети. Предложить способ учета структуры матрицы (разреженность, зависимости между коэффициентами и т.д.)
Данные: Синтетические данные и тесты.
Литература:
- Зайцев А.А., Стрижов В.В., Токмакова А.А. Оценка гиперпараметров регрессионных моделей методом максимального правдоподобия // Информационные технологии, 2013, 2 — 11-15.
- Kuznetsov M.P., Tokmakova A.A., Strijov V.V. Analytic and stochastic methods of structure parameter estimation // Preprint, 2015.
- Адуенко А. А. Презентация по Evidence, 2015. aduenko_presentation_russian.pdf
- Bishop C. M. Pattern Recognition and Machine Learning, pp. 161-172, 2006.
Базовой алгоритм: Оценка диагональной матрицы, см. папку MLAlgorithms/HyperOptimization.
Решение:
Новизна: Предложен быстрый алгоритм получения оценок ковариационной матрицы общего вида для нелинейных моделей, исследованы свойства разреженных матриц.
Консультант: Александр Адуенко.

Задача 4

Название: Отбор признаков в прогнозировании временных рядов c использованием экзогенных факторов
Задача: постановка задачи из [3] формула (32)
Данные: временные ряды с ценами на электроэнергию.
Литература:
- Ключевые слова: Hourly Price Forward Curve, краткосрочное прогнозирование временных рядов, выбор признаков, метод Add-Del, (не)линейная регрессия.
- Основные статьи:
1. [4] - исследование влияния цен в одной стране на цену в другой и как это учесть при прогнозировании.
2. [5] - обзор терминов и процессов, всплывающих в прогнозировании HPFC + мотивация
3. [6] - тоже про прогнозирование цен, но тут про спотовые цены
Базовой алгоритм:
1. LAD-Lasso estimation из [7]
2. Статья Сандуляну про модификацию Add-Del: [8].
Решение: применить в качестве метода отбора признаков модифицрованный метод Add-Del.
Новизна: сравнение базвого и предложенного методов, анализ свойств предложенного метода.
Консультант: Александр Катруца.

Задача 5

Название: Разработка алгоритма распознавания изображений при поиске параметров фибринолиза.
Задача: Задан набор снимков роста фибринового сгустка, полученных в процессе исследования тромбодинамики и [9]. Требуется разработать алгоритм поиска координат отрезка и угла наклона линии активатора по серии снимков. Протестировать разработанный алгоритм на разных видах фибринолиза и примерах, где данный процесс отсутствует.
Данные: Массив снимков для каждого исследования формата tiff 16 бит c моментами времени от начала в сек.
Литература
- Описание прикладной задачи и техническое задание: по запросу.
Базовой алгоритм: Преобразование Хафа [10], обсуждается.
Консультант: И.А. Матвеев

Задача 6

Название: Прогнозирование четвертичных структур белков: нивелирование
Задача: Задача заключается в предсказании упаковки белковых молекул в мультимерный комплекс в приближении жестких тел. Одна из формклировок задачи записывается как невыпуклая оптимизация.

Нужно исследовать эту формулировку и предложить алгоритм решения.

Suppose we have $N$ proteins in an assembly, such that each protein $i$ can be located in one of $P$ positions $x_{p}^{i}$ . $N$ is ~ 10, $P$ ~ 100. To each two vectors $x_{i}^{p}$ and $x_{j}^{q}$ , we can assign an energy function $q_{0}$ , which is the overlap integral in the simplest approximation. Each protein position also has an associated score $b_{0}$ . Thus, the optimal packing problem can be formulated as

$\begin{align} x^{T}Q_{0}x+b_{0}^{T}x &\rightarrow& \textrm{min}\\ \textrm{w.r.t}. &&\left\Vert x^{k}\right\Vert _{\infty}=1\;\forall k \\ && x_{i}^{k}\geq0\;\forall i,k \end{align}$

Данные: Собираются при помощи одного из стандартных комплексов решенных при помощи электронной микроскопии. Значения энергий и интегралов перекрытия вычисляются при помощи модификации одного из стандартных пакетов, например, HermiteFit. Данные генерируются за ~ 1 минуту, модификация кода и подготовка данных займет ~ 1 неделю.
Литература: Ю.Е. Нестеров Введение в выпуклую оптимизацию (доступна на сайте PreMoLab)
Замечания по коду: Замечания по программной реализации
Базовый алгоритм: Хочется попробовать выпуклые релаксации.
Новизна: Выпуклые релаксации не применялись ранее в таких задачах на данных белков
Консультант: Ю.В. Максимов

Задача 7

Название: Метрическое обучение и снижение размерности пространства в задачах классификации временных рядов
Задача: постановка задачи из базовой статьи, возможна некоторая модификация функции ошибки из-за специфики временных рядов
Данные: временные ряды цен на электроэнергию
Литература:
1. [11] - базовая статья
2. [12] - отличный обзор методов Metric Learning
3. [13] - ещё обзор
Базовой алгоритм: алгоритм Франка-Вольфа (условного градиентного спуска)
Решение: применить прореживание целевой матрицы с помощью метода Belsley для удаления мультиколлинерности
Новизна: применение методов Metric Learning в задаче кластеризации временных рядов, анализ свойств предложенного метода
Консультант: Александр Катруца

Задача 8

Название: Структурное обучение при порождении моделей
Задача: Решается задача поиска ранжирующей функции в задачах информационного поиска. Поиск проводится среди непараметрических функций (структур), сгенерированныx грамматикой вида G: g---> B(g, g) | U(g) | S, где B - набор бинарных операций {+, -, *, /}, U - унарных {-(), sqrt, log, exp}, S - переменных и параметров {x, y, k}. Предлагается решать задачу порождения ранжирующей модели в два этапа, используя в качестве обучающей выборки историю восстановления структуры модели.
Данные: Подколлекции TREC.
Описание коллекции данных, используемых для оценки функций, и процедуры оценки. [14]
Литература
- Jaakkola T. Scaled structured prediction.
- Tommi Jaakkola “Scaling structured prediction”
- Найти все работы учеников TJ по данной тематике.
- Варфоломеева А.А. Дипломная работа бакалавра в MLAlgorithms/BSThesis/Varfolomeeva
Базовой алгоритм: Парантапа, BM25 - модели для сравнения.
Решение: Предлагается кластеризовать коллекцию и породить модели для кластеров документов. Затем методом структурного обучения найти модели, обобщающие объединения кластеров вплоть до самой коллекции.
Новизна: Обнаружены ранжирующие функции, не уступающие по качеству используемым на практике.
* Консультант: Анна Варфоломеева, Олег Бахтеев

Задача 9

Название: Проверка соответствия электрокардиографа требованиям диагностической системы «Скринфакс» и оценка качества электрокардиограмм.
Задача: Решается задача проверки соответствия произвольного электрокардиографа требованиям системы диагностики «Скринфакс» [1—4] на основе сравнения электрокардиограмм (ЭКГ) одних и тех же пациентов, зарегистрированных обоими приборами по схеме АВАВ, где А – первый прибор, В – второй. Также решается задача автоматического выявления некачественных электрокардиограмм, не удовлетворяющих требованиям диагностической системы.
Данные: Выборка состоит из записей со значениями ЭКГ, зарегистрированными прибором, для которого проводится проверка, и прибором, используемым в системе диагностики «Скринфакс» (данные с подробным описанием формата записей будут предоставлены выбравшему задачу). Для тестирования алгоритмов обнаружения R-пиков и оценивания уровня шума можно использовать http://www.physionet.org/physiobank/database/ptbdb/
Литература:
1. Информационный портал Диагностической системы «Скринфакс». URL: http://skrinfax.ru/автор-метода/
2. Технология информационного анализа электрокардиосигналов
3. Успенский В.М. Информационная функция сердца. Теория и практика диагностики заболеваний внутренних органов методом информационного анализа электрокардиосигналов. М.: Экономика и информатика, 2008. 116с.
4. Успенский В.М. Информационная функция сердца. // Клиническая медицина. 2008. Т.86. №5. С.4–13.
5. Naseri H., Homaeinezhad M.R. Electrocardiogram signal quality assessment using an artificially reconstructed target lead // Computer Methods in Biomechanics and Biomedical Engineering. 2015. Vol.18, No. 10. Pp. 1126-1141.
6. Zidelmal Z., Amirou A., Ould-Abdeslam D., Moukadem A., Dieterlen A. QRS detection using S-Transform and Shannon energy. // Comput Methods Programs Biomed. 2014. Vol. 116, No. 1. Pp. 1-9. URL: https://yadi.sk/i/-kD00y1VepB3q
7. Sarfraz M., Li F. F., Khan A. A. Independent Component Analysis Methods to Improve Electrocardiogram Patterns Recognition in the Presence of Non-Trivial Artifacts // Journal of Medical and Bioengineering. 2015. Vol. 4, No. 3. Pp. 221—226. URL: https://yadi.sk/i/-kD00y1VepB3q
8. Meziane N. et al. Simultaneous comparison of 1 gel with 4 dry electrode types for electrocardiography // Physiol. Meas. 2015. Vol. 36, No. 513.
9. Allana S., Aversa J., Varghese C., et al. Poor quality electrocardiograms negatively affect the diagnostic accuracy of ST segment elevation myocardial infarction. // J Am Coll Cardiol. 2014. Vol. 63, No. 12_S. doi:10.1016/S0735-1097(14)60172-8.
Базовой алгоритм: Оценивание качества ЭКГ – [4], обнаружение R-пиков – [5], оценивание уровня шума в данных – [6].
Решение: Задачу проверки соответствия произвольного электрокардиографа требованиям системы диагностики «Скринфакс» предлагается решать путем построения перестановочных статистических тестов по сравнению значений RR-интервалов и R-амплитуд и выявленных кодовых последовательностей (вычисляются по амплитудам и интервалам) для каждого заболевания. Здесь возникает задача обнаружения R-пиков. В задаче обнаружения некачественных электрокардиограмм возникает задача оценивания уровня шума. Кроме того, необходимо научиться отсеивать ЭКГ с неинформативными значениями амплитуд или большим разбросом значений интервалов, поскольку методика анализа электрокардиосигналов неприменима к диагностике аритмии.
Новизна: Задачу проверки соответствия электрокардиографа требованиям диагностической системы можно рассматривать как задачу сравнения приборов регистрации ЭКГ, возникающей, например, при сравнении различных видов электродов, и в качестве критериев выбираются уровень шума в значениях электрокардиосигналов, наличие дрейфа базовой линии и некоторые другие признаки [7].
Консультант: Ишкина Шаура

Задача 10

Название: Simplification of the IR models structure
Задача: To achieve the acceptable quality of the information retrieval models, modern search engines use models of very complex structure. In current research we propose to simplify the model structure and make it interpretable without decreasing the model accuracy. To do this, we follow the idea from (Goswami et al., 2014) of constructing the set of nonlinear IR functions of simple structure and admissible accuracy. However, each of this functions is expected to have lower accuracy while comparing with the best IR model of complex structure. Thus, we propose to approximate this complex model with the linear combination of simple nonlinear functions and expect to obtain the comparable quality of solution.
Данные: TREC collections.
Литература
- P. Goswami et Al. Exploring the Space of IR Functions // Advances in Information Retrieval. Lecture Notes in Computer Science. 8416:372-384, 2014.
- Problem statement
Базовой алгоритм: Gradient boosting machine for constructing a model of high complexity. Exaustive search of superpositions from a set of elementary functions for approximation and simplification.
Решение: The optimal functions for the linear combination can be found by the greedy algorithm.
Новизна: A new ranking function of simple structure competitive with traditional ones.
Консультант: Mikhail Kuznetsov.

Задача 11

Название: Тестирование непараметрических алгоритмов прогнозирования временных рядов в условиях нестационарности
Задача: Одним из ключевых предположений о распределении данных при непараметрическом является предположение о стационарности временного ряда. Адекватность прогнозов при невыполнении этого требования не гарантируется. Требуется разработать метод определения выполнения условия локальной стационарности временного ряда исследовать применимость основных алгоритмов непараметрического прогнозирования в отсутствии стационарности. Рассмотреть основные методы непараметрической регрессии, такие как ядерное сглаживание, сглаживание сплайнами, авторегрессия, скользящее среднее и др.
Данные: Данные о грузовых железнодорожных перевозках (РЖД)
Литература:
- Вальков А.С., Кожанов Е.М., Медведникова М.М., Хусаинов Ф.И. Непараметрическое прогнозирование загруженности системы железнодорожных узлов по историческим данным // Машинное обучение и анализ данных. — 2012. — № 4.
- Dickey D. A. and Fuller W. A. Distribution of the Estimators for Autoregressive Time Series with a Unit Root / Journal of the American Statistical Association. — 74. — 1979. — p. 427—-431.
Базовой алгоритм: ARMA, Hist.
Решение: В качестве базового метода для проверки рядов на нестационарность использовать тест Дики-Фуллера. Предлагается также рассмотреть такие источники нестационарности, как тренд и сезонность.
Новизна: Разработан и обоснован метод определения выполнения условия локальной стационарности временного ряда.
Консультант: Стенина Мария

Задача 12

Название: Обучение метрик в задачах полного и частичного обучения
Задача: состоит в программной реализации комплекса методов выпуклой и DC-оптимизации для задачи выбора оптимальной метрики в задачах распознавания. Иными словами, в построении метрики такой, что классификация методом ближайших соседей дает высокую точность.
Данные: Birds и Fungus коллекции ImageNet с извлеченными Deep features(предоставляется консультантом). Первичные тесты можно проводить на данных представленных здесь
Литература: Список литературы и описание подробное задачи приведены в файле
Замечания к коду: Замечания по программной реализации
Базовый алгоритм: 1) выпуклая релаксация задачи решаемая внутренней точкой через CVX 2) SVM на модифицированной выборке, состоящей из пар объектов
Консультант: Ю.В. Максимов

Задача 13

Название: Построение иерархической тематической модели крупной конференции
Задача: Ежегодно, программный комитет крупной конференции EURO (более 2000 докладов) сталкивается с задачей построения иерархической модели тезисов конференции. В силу того, что структура конференции слабо меняется из года в год, предлагается построить тематическую модель будущей конференции, используя экспертные модели конференций прошлых лет. При этом возникают следующие подзадачи:

Классификация тезисов новой конференции.
Прогнозирование изменений структуры конференции.

Данные: Тезисы и экспертные модели конференций EURO 2010, 2012, 2013.
Литература: Alexander A. Aduenko, Arsentii A. Kuzmin, Vadim V. Strijov. Adaptive thematic forecasting of major conference proceedings текст статьи
Базовой алгоритм:
Решение: Для решения подзадач

предлагается объединить экспертные модели конференций прошлых лет в одну, и для каждого тезиса новой конференции найти в полученной объединенной модели наиболее подходящий кластер, например, с помощью взвешенной косинусной меры близости.
исследовать изменения в структуре конференций из года в год и определить порог значений внутрикластерного сходства, при котором для некоторого набора тезисов эксперты создают новый кластер, а не добавляют эти тезисы в уже существующие кластеры.

Новизна: Взвешенная косинусная мера близости, учитывающая иерархичность структуры кластеров. Прогнозирование изменений иерархической структуры/тематики конференции
Консультант: Арсентий Кузьмин

Задача 14

Название: Регуляризация линейного наивного байесовского классификатора.
Задача: Построение линейного классификатора является одной из классических и самых хорошо изученных задач машинного обучения. Линейный наивный байесовский (LNB) классификатор имеет сильное преимущество — он строится за время, линейное по длине выборки, и сильное ограничение — при его выводе предполагается, что признаки независимы. На некоторых данных LNB работает удивительно хорошо, несмотря на явное нарушение гипотезы о независимости признаков. Линейная машина опорных векторов (SVM) считается очень успешным методом, но на больших выборках работает долго. Оба эти метода работают в одном и том же пространстве линейных классификаторов. Идея исследования состоит в том, чтобы путём незначительных поправок LNB приблизить его к SVM по качеству, но без утраты эффективности.
Данные: Один из трёх наборов данных, по выбору: классификация текстов на научные и ненаучные, классификация авторефератов по областям науки, классификация кодограмм ЭКГ на больных и здоровых.
Литература:
1. Larsen (2005) Generalized Naive Bayes Classifiers.
2. Abraham, Simha, Iyengar (2009) Effective Discretization and Hybrid feature selection using Naïve Bayesian classifier for Medical datamining.
3. Lutu (2013) Fast Feature Selection for Naive Bayes Classification in Data Stream Mining.
4. Zaidi, Carman, Cerquides, Webb (2014) Naive-Bayes Inspired Effective Pre-Conditioner for Speeding-up Logistic Regression.
5. + спросить у К.В.Воронцова.
Базовой алгоритм: любые готовые реализации LNB и SVM. Плюс наивный отбор признаков для LNB.
Решение: Выводим поправочные формулы для весов LNB при использовании margin-maximization регуляризатора, аналогичного SVM. Строим итерационный процесс, в котором на каждом шаге вычисляется поправка, ещё немного приближающая LNB к SVM. Строятся ROC-кривые и зависимости Hold-out AUC от номера итерации.
Новизна: Сообщество ML до сих пор не осознало, что любой линейный классификатор эквивалентен какому-то наивному байесовскому.
Консультант: Михаил Усков. Гиперконсультант: К.В.Воронцов.

Задача 15

Название: Тематическая модель интересов постоянных пользователей мобильного приложения.
Задача: Мобильное приложение для изучения английских слов предлагает пользователю слова одно за другим. Пользователь может либо добавить слово к изучаемым, либо откинуть. Чтобы начать учить слова, нужно набрать, как минимум, 10 слов. Требуется построить вероятностную модель генерации слов, адаптирующуюся под интересы пользователя.
Данные: Для каждого пользователя имеются списки добавленных и откинутых слов. Кроме того, предполагается использовать большую внешнюю коллекцию текстов, например, Википедию, для устойчивого определения тематики.
Литература:
1. Vorontsov K. V., Potapenko A. A. Additive Regularization of Topic Models // Machine Learning. Special Issue “Data Analysis and Intelligent Optimization with Applications”. 2014. Русский перевод
2. + попросить у К.В.Воронцова
Базовой алгоритм: Алгоритм случайного отбора слов.
Решение: Тематическая модель для каждого пользователя определяет тематический профиль его интересов p(t|u). Для генерации слов используются распределения слов из распределений p(w|t) тем данного пользователя. Строятся зависимости функционалов качества тематической модели от номера итерации. Основной функционал качества — способность модели предсказывать, какие слова пользователь оставит, а какие откинет.
Новизна: Особенностью модели является наличие откинутых слов. Разработанные методы могут быть также применены в рекомендательных системах с лайками и дизлайками.
Консультант: Виктор Сафронов. Гиперконсультант: К.В.Воронцов.

Планы на следующий год:

Расширить тест по матлабу и давать его вместе с пробным программированием в качестве первого задания.

2014

Автор	Тема научной работы	Ссылка	Консультант	ДЗ-1	Буквы	Сумма	Оценка
Газизуллина Римма	Прогнозирование объемов железнодорожных грузоперевозок по парам веток	[15], pdf	Стенина Мария	$\frac{15}{15}+\frac{10}{16}$	[MF]TAI+L+SBR+CV+T>DEH(J)	16	10
Гринчук Алексей	Выбор оптимальных структур прогностических моделей методами структурного обучения	[16], pdf	Варфоломеева Анна	$\frac{7}{15}+\frac{2}{16}$	[F]TA+I+LSBR+СV+T+D+E(F)	14,5	9
Гущин Александр	Последовательное порождение существенно нелинейных моделей в задачах ранжирования документов	[17], pdf	Кузнецов Михаил	$\frac{5}{15}+\frac{2}{16}$	[F]TAI+L+SBRCVTDEHS(F)	15,5	9
Ефимова Ирина	Дифференциальная диагностика заболеваний по электрокардиограмме	[18], pdf	Целых Влада	$\frac{15}{15}+\frac{12}{16}$	[MF]T+A+I+L+SB++R+CV+TDE+H(J ed)	17,25	10
Жуков Андрей	Построение рейтингов вузов: панельный анализ и оценка устойчивости	[19], pdf	Кузнецов Михаил	$\frac{8}{15}+0$	[F]TAIL+SBRCVTDEHS(F)	15,25	9
Игнатов Андрей	Обучение многообразий для прогнозирования наборов квазипериодических временных рядов	[20], pdf	Ивкин Никита	$0+\frac{7}{16}$	[MF]TA+I+L+S+B+R+C+VTD>E+HS (J if ed)	18	10
Карасиков Михаил	Поиск эффективных методов снижения размерности при решении задач мультиклассовой классификации путем её сведения к решению бинарных задач	[21], pdf	Ю.В. Максимов	$0+0$	[MF]TAI+L+SBRC+V+TDESH(J)	15	10
Кулунчаков Андрей	Обнаружение изоморфных структур существенно нелинейных прогностических моделей	[22], pdf	Сологуб Роман, Кузнецов Михаил	$\frac{10}{15}+\frac{14}{16}$	[F]T+AI+L+S+BR+CVT++D+EHS(J ed-ed)	17	10
Липатова Анна	Обнаружение закономерностей в наборе временных рядов методами структурного обучения	[23], pdf	А. П. Мотренко	$\frac{8}{15}+\frac{6}{16}$	[MF]TA+I+LSBR-CVTDE (J when ed)	14,25	10
Макарова Анастасия	Использование нелинейного прогнозирования при поиске зависимостей между временными рядами	[24], pdf	Мотренко Анастасия	$0+0$	[F]TAI-LSB+R-CVTD>E>(F)	12,75	9
Плавин Александр	Оптимизация числа тем в вероятностных тематических моделях с помощью регуляризатора строкового разреживания	[25], pdf	Потапенко Анна	$\frac{13}{15}+\frac{14}{16}$	[F]T+A+I+L+S+BR++CVTD+>>(?)	14	10
Попова Мария	Выбор оптимальной модели прогнозирования физической активности человека по измерениям акселерометра	[26], pdf	Токмакова Александра	$\frac{11}{15}+\frac{6}{16}$	[MF]T+AI+L++SB++R+CV+TD+(JV ed)	15,25	10
Швец Михаил	Интерпретация мультимоделей при обработке социологических данных	[27], pdf	Адуенко Александр	$\frac{11}{15}+\frac{4}{16}$	[M+F]T+A+I+L+S+B+R+CVTD+E(F)	16,25	9
Шинкевич Михаил	Влияние регуляризаторов разреживания, сглаживания и декорреляции на устойчивость вероятностной тематической модели	[28], pdf	Дударенко Марина	$\frac{15}{15}+\frac{9}{16}$	[MF]T+AIL+S+BR+CV+T+D+E+H(J ed)	17	10

1. Оптимизация числа тем в вероятностных тематических моделях с помощью регуляризатора строкового разреживания

Консультант: А.А. Потапенко

Задача: Вероятностная тематическая модель описывает вероятности появления слов $w\in W$ в документах $d\in D$ через латентные темы $t\in T$ :

$p(w|d) = \sum_{t\in T} p(w|t)p(t|d) = \sum_{t\in T} \phi_{wt}\theta_{td}.$

Требуется проверить гипотезу, что, накладывая ограничения на матрицу $\Theta$ с помощью регуляризатора строкового разреживания, возможно определить оптимальное число тем.

Данные: Коллекция документов задаётся частотами слов. Поскольку для решения задачи необходимо знать <<истинное>> число тем, эксперименты производятся на реалистичных модельных или полумодельных данных.

Литература:

Описание задачи и предлагаемые пути решения
Воронцов К. В. Аддитивная регуляризация тематических моделей коллекций текстовых доку-

ментов // Доклады РАН. 2014. — Т. 455, №3 (в печати).

Воронцов К. В. Вероятностное тематическое моделирование. — 2014.

http://www.MachineLearning.ru/wiki/images/2/22/Voron-2013-ptm.pdf

Teh Y. W., Jordan M. I., Beal M. J., Blei D. M. Hierarchical Dirichlet processes // Journal of the

American Statistical Association. — 2006. — Vol. 101, no. 476. — Pp. 1566–1581.

Базовый алгоритм: Для решения оптимизационной задачи используется регуляризованный EM-алгоритм [2014: Воронцов]. Может быть использована рациональная, стохастическая или онлайновая версия EM-алгоритма.

Новизна: Для оптимизации числа тем обычно используется модель иерархического процесса Дирихле HDP [2006: Teh et Al]. Она определяет число тем неустойчиво, и при этом сложна как для понимания, так и для реализации. Аддитивная регуляризация тематических моделей (ARTM) --- это новый подход к тематическому моделированию, сочетающий универсальность, гибкость и простоту. Задача оптимизации числа тем ещё не рассматривалась в рамках ARTM.

2. Дифференциальная диагностика заболеваний по электрокардиограмме

Консультант: В.Р. Целых

Задача: Предлагается решить типичную задачу классификации. Признаками являются 216 характеристик, вычисляемых по электрокардиограмме. Необходимо провести оценку качества классификации по отложенной контрольной выборке. Для этого вычисляются доли ошибок первого и второго рода. Под ошибкой первого рода подразумевается отнесение здоровых к классу больных, второго рода – отнесение больных к классу здоровых. Предпочтение отдается минимизации ошибок второго рода.

Данные: Для каждой из 5 болезней есть 2 типа выборок. Эталонные – более надежные, специально отобранные случаи. Остальные – случаи, когда диагнозы устанавливались врачами менее надежно, эти выборки предлагается использовать для контроля.

Литература:

Воронцов К. В. Метрические алгоритмы классификации. Лекции по машинному обучению. — 2014. http://www.MachineLearning.ru/wiki/images/c/c3/Voron-ML-Metric-slides.pdf
Успенский В. М. Информационная функция сердца // Клиническая медицина, 2008. — Т. 86, № 5. — С. 4–13.
Успенский В. М. Информационная функция сердца. Теория и практика диагностики заболеваний внутренних органов методом информационного анализа электрокардиосигналов. — М.: «Экономика и информация», 2008. — 116 с.

Базовый алгоритм: Для решения задачи предлагается использовать метрический алгоритм с жадным отбором признаков.

Новизна: Данные подготовлены по уникальной технологии информационного анализа электрокардиосигналов, разработанной проф. д.м.н. В.М.Успенским. Предложен алгоритм классификации и исследована его обобщающая способность.

3. Влияние регуляризаторов разреживания, сглаживания и декорреляции на устойчивость вероятностной тематической модели

Консультант: М.A. Дударенко

Задача:Вероятностная тематическая модель описывает вероятности появления слов $w\in W$ в документах $d\in D$ через латентные темы $t\in T$ :

$p(w|d) = \sum_{t\in T} p(w|t)p(t|d) = \sum_{t\in T} \phi_{wt}\theta_{td}.$

Представление матрицы $\|p(w|d)\|_{W\times D}$ в виде произведения двух матриц меньшего размера ${\Phi=\|\phi_{wt}\|_{W\times T}}$ и ${\Theta=\|\theta_{dt}\|_{T\times D}}$ не единственно: $\Phi \Theta = (\Phi S)(S^{-1}\Theta) = \Phi'\Theta'$ для некоторых невырожденных $S$ . Требуется проверить гипотезу, что, накладывая ограничения на матрицы $\Phi, \Theta$ с помощью регуляризаторов, возможно повысить устойчивость их восстановления.

Данные: Коллекция документов задаётся частотами слов. Поскольку для решения задачи необходимо знать «истинные» матрицы $\Phi, \Theta,$ эксперименты производятся на реалистичных модельных или полумодельных данных, удовлетворяющих гипотезам разреженности, слабой коррелированности тем и наличия фоновых тем.

Литература:

Воронцов К. В. Аддитивная регуляризация тематических моделей коллекций текстовых документов // Доклады РАН. 2014. — Т. 455, №3 (в печати).
Воронцов К. В. Вероятностное тематическое моделирование. — 2014. http://www.MachineLearning.ru/wiki/images/2/22/Voron-2013-ptm.pdf.

Новизна: Аддитивная регуляризация тематических моделей (ARTM) предложена в [2014: Воронцов] как универсальный способ повышения устойчивости и интерпретируемости тематических моделей. Однако вопрос о том, какое именно сочетание регуляризаторов повышает устойчивость, пока остаётся открытым. Данное исследование направлено на решение этой проблемы.

4. Построение рейтингов вузов: панельный анализ и оценка устойчивости

Консультант: М.П. Кузнецов

Задача: Рейтинг вуза изменяется от года к году. Это изменение может быть вызвано плохим качеством методики подсчета рейтинга, случайными изменениями в показателях вуза и целенаправленным изменением состояния вуза. Требуется предложить такую устойчивую к случайным изменениям методику рейтингования, которая бы позволяла интерпретировать изменение состояния вуза.

Данные: Данные по ста ведущим мировым университетам за восемь лет.

Литература:

Стрижов В.В. Уточнение экспертных оценок с помощью измеряемых данных // Заводская лаборатория. Диагностика материалов, 2006, 72(7) — 59-64.
Стрижов В.В. Уточнение экспертных оценок, выставленных в ранговых шкалах, с помощью измеряемых данных // Заводская лаборатория. Диагностика материалов, 2011, 77(7) — 72-78.
Kuznetsov M.P., Strijov V.V. Methods of expert estimations concordance for integral quality estimation // Expert Systems with Applications, 2014.
Черновик статьи POF по запросу.

Базовой алгоритм: Методика построения рейтинга RUR и один из избыточно устойчивых алгоритмов для ранговых шкал.

Новизна: Введено понятие интерпретируемости изменения позиции рейтинга. Решена задача выбора и оптимальной локально-монотонной коррекции показателей. Предложена методика построения рейтинга, позволяющевого интерпретировать изменение состояния вуза с целью мониторинга. Вариант: решена обратная задача управления: как изменить показатели вуза, чтобы достичь заданной цели.

5. Обнаружение закономерностей в наборе временных рядов методами структурного обучения

Консультант: А.П. Мотренко

Задача: Для повышения качества прогноза временных рядов хочется использовать экспертные высказывания о наличии причинно-следственной связи между событиями. Для этого необходимо уметь оценивать достоверность экспертных высказываний. Доказать наличие причинно-следственной связи статистическими методами невозможно. Исследователь может лишь проверить наличие определенной структуры связи. Целью задачи является, опираясь на экспертные высказывания о наличии связи между событиями, исследовать временные ряды на наличие различных структурных связей и найти структуру, наиболее согласованную с мнением эксперта.

Литература:

R. B. Kline, Principles and Practice of Structural Equation Modeling. New York: Guilford. 2005.
J. Pearl, Graphs, Causality and Structural Equation Models. Sociological Methods and Research, 27-2(1998), 226-284.
J. Pearl, E. Bareinboim, Transportability of Causal and Statistical Relations: A Formal Approach // Proceedings of the 25th AAAI Conference on Artificial Intelligence, August 7-11, 2011, San Francisco. 247-254
Вальков А.С., Кожанов Е.М., Мотренко А.П., Хусаинов Ф.И. Построение кросс-корреляционных зависимостей при прогнозе загруженности железнодорожного узла // Машинное обучение и анализ данных. 2013. T. 1, № 5. C. 505-518.
Вальков А.С., Кожанов Е.М., Медведникова М.М., Хусаинов Ф.И. Непараметрическое прогнозирование загруженности системы железнодорожных узлов по историческим данным // Машинное обучение и анализ данных. 2012. T. 1, № 4. C. 448-465.

Базовой алгоритм: моделирование структурных уравнений, SEM

Новизна: Предложен метод оценки достоверности экспертных высказываний о влиянии биржевых цен на основные инструменты на объем железнодорожных грузоперевозок. Предложены различные структуры связей между временными рядами. Введено понятие сложности структуры. Исследована связь между сложностью структуры и оценкой достоверности высказывания.

18. Использование нелинейного прогнозирования при поиске зависимостей между временными рядами

Консультант: А.П. Мотренко

Задача: (Как часть исследования, посвященного обнаружению закономерностей в наборах временных рядов) Предлагается отказаться при поиске зависимостей между временными рядами от стандартных предположений о стационарности временного ряда и исследовать временные ряды с точки зрения теории динамических систем, в рамках которой рассматриваются нерегулярные временные зависимости, определенные структурой фазового пространства. Требуется изучить набор подходов к анализу динамических данных и выявлению связей между ними; описать границы применимости базового алгоритма и предложить новые варианты выявляемых структурных связей. Данные: Синтетические данные, исторические биржевые цены на основные инструменты и данные по железнодорожным грузоперевозкам.

Литература:

Tools for the Analysis of Chaotic Data. HENRY D. I. ABARBANEL
Nonlinear forecasting as a way of distinguishing chaos from measurement error in time series, G. Sugihara, R.M. May.
George Sugihara et al. Detecting Causality in Complex Ecosystems. Science 338, 496 (2012);
Вальков А.С., Кожанов Е.М., Мотренко А.П., Хусаинов Ф.И. Построение кросс-корреляционных зависимостей при прогнозе загруженности железнодорожного узла // Машинное обучение и анализ данных. 2013. T. 1, № 5. C. 505-518.
Вальков А.С., Кожанов Е.М., Медведникова М.М., Хусаинов Ф.И. Непараметрическое прогнозирование загруженности системы железнодорожных узлов по историческим данным // Машинное обучение и анализ данных. 2012. T. 1, № 4. C. 448-465.

Базовой алгоритм: convergent cross mapping

Новизна: Предложены различные структуры связей между временными рядами и метод проверки наличия связей

6. Последовательное порождение существенно нелинейных моделей в задачах ранжирования документов

Консультант: М.П. Кузнецов

Задача: Предложить и протестировать на тестовых и реальных данных алгоритм порождения существенно нелинейных моделей. Алгоритм должен порождать 1) полный набор моделей 2) выбирать оптимальный шаг для фиксированной структуры модели (добавление элемента суперпозиции).

Данные: Синтетические данные, данные по текстовым коллекциям LIG.

Литература:

Goswami P., Moura1 S., Gaussier E., Amini M.R. Exploring the Space of IR Functions //
Рудой Г.И., Стрижов В.В. Алгоритмы индуктивного порождения суперпозиций для аппроксимации измеряемых данных // Информатика и её применения, 2013, 7(1) — 17-26.
Рудой Г.И., Стрижов В.В. Упрощение суперпозиций элементарных функций при помощи преобразований графов по правилам // Интеллектуализация обработки информации. Доклады 9-й международной конференции, 2012 — 140-143.
Vladislavleva E.,Smith G., Hertog D., Order of Nonlinearity as a Complexity Measure for Models Generated by Symbolic Regression via Pareto Genetic Programming // IEEE Transactions on Evolutionary Computation, 2009. Vol. 13(2). Pp. 333-349.
Vladislavleva E. Model-based Problem Solving through Symbolic Regression via Pareto Genetic Programming: PhD thesis, Tilburg University, Tilburg, the Netherlands, 2008.

Базовой алгоритм: Алгоритм полного перебора допустимых суперпозиций порождающих функций.

Новизна: Предложен алгоритм последовательного добавления элементы суперпозиций. Предложена функция расстояния между суперпозициями, исследованы ее свойства. Введено понятие сложности суперпозиции и понятие смежных суперпозиций, отличающихся по сложности на единицу. Предложен алгоритм порождения смежных суперпозиций.

7. Обнаружение изоморфных структур существенно нелинейных прогностических моделей

Консультант: Р.А. Сологуб, М.П. Кузнецов

Задача: Развить алгоритм поиска изоморфных подграфов для деревьев (вариант - для ориентированных ациклических графов). Сравнить сложность алгоритма проверки изоморфности двух суперпозиций для предлагаемого алгоритма и для алгоритма поэлементного сравнения отображений.

Данные: Данные по биржевым опционам: зависимость волатильности опциона от цены и времени его исполнения.

Литература:

Рудой Г.И., Стрижов В.В. Алгоритмы индуктивного порождения суперпозиций для аппроксимации измеряемых данных // Информатика и её применения, 2013, 7(1) — 17-26.
Рудой Г.И., Стрижов В.В. Упрощение суперпозиций элементарных функций при помощи преобразований графов по правилам // Интеллектуализация обработки информации. Доклады 9-й международной конференции, 2012 — 140-143.
Ehrig H., Ehrig G., Prange U.,Taentzer. G. Fundamentals of Algebraic Graph Transformation. Springer, 2006.
Ehrig H., Engels G. Handbook of Graph Grammars and Computing by Graph Transformation. World Scientific Publishing, 1997.
Стрижов В.В., Сологуб Р.А. Индуктивное порождение регрессионных моделей предполагаемой волатильности для опционных торгов // Вычислительные технологии, 2009, 14(5) — 102-113.

Базовой алгоритм: Алгоритм поэлементного сравнения отображений.

Новизна: Предложен быстрый алгоритм упрощения суперпозиций и поиска изоморфных моделей. Используется матрица инцидентности набора порождающих функций.

8. Построение прогностических моделей как суперпозиций экспертно-заданных функций

Консультант: Н.П. Ивкин

Задача: Требуется отнести набор временных рядов к одному из нескольких классов. Предлагается это сделать с помощью процедуры автоматизированного порождения признаков. Для этого экспертно создается набор порождающих функций, которые 1) преобразуют временной ряд (например, сглаживают, раскладывают по главным компонентам), 2) извлекают из временного ряда его агрегированные описания (например, среднее, дисперсию, число экстремумов). Возможно порождение значительного количества признаков путем построения суперпозиций порождающих функций. Полученные признаки используются для классификации набора временных рядов (например, методом ближайших соседей).

Данные: данные с акселерометра мобильного телефона.

Литература:

Постановка задачи \MLAlgorithms\Group074\Kuznetsov2013SSAForecasting\doc
Хайкин С. Нейронные сети. Вильямс, 2006.

Базовой алгоритм: нейронная сеть (вариант: нейронная сеть глубокого обучения).

Новизна: Предложен способ извлечения признаков с помощью автоматически построенных суперпозиций экспертно-заданных функций.

Сравнение структурной и топологической сложности в задачах классификации.

9. Обучение многообразий для прогнозирования наборов квазипериодических временных рядов

Консультант: Н.П. Ивкин

Задача: Решается задача классификации человеческой активности на основании данных с акселерометра мобильного телефона. Данные с акселерометра представляются квазипериодическими временными рядами. Требуется отнести временной ряд к одному из видов активности: бег, ходьба и др. Для решения задачи классификации рядов предлагается метод на основе ближайших соседей в пространстве многообразий.

Данные: данные с акселерометра мобильного телефона.

Литература:

Mi Zhang; Sawchuk, A.A., "Manifold Learning and Recognition of Human Activity Using Body-Area Sensors," Machine Learning and Applications and Workshops (ICMLA), 2011 10th International Conference on , vol.2, no., pp.7,13, 18-21 Dec. 2011

Базовой алгоритм: нейронная сеть

Новизна: предложен способ классификации квазипериодических временных рядов на основе многообразий

10. Интерпретация мультимоделей при обработке социологических данных

Консультант: А.А. Адуенко

Задача: Задача кредитного скоринга заключается в определении уровня кредитоспособности заемщика, подавшего заявку на кредит. Для этого используется анкета заемщика, содержащая как числовые данные (возраст, доход, время проживания в стране), так и категориальные признаки (пол, профессия). Требуется, имея историческую информацию о возвратах кредитов другими заемщиками, определить, вернет ли кредит рассматриваемый клиент. Таким образом, требуется решить задачу классификации. Так как данные могут быть разнородными (например, в случае наличия в стране разных регионов по доходу), данные могут описываться не одной, а несколькими моделями. В данной работе предлагается сравнить два метода построения мультимоделей: смеси логистических моделей и градиентный бустинг.

Данные: данные по потребительским кредитам (\mlalgorithms\BSThesis\Aduenko2013\data).

Литература:

смеси моделей (\mlalgorithms\BSThesis\Aduenko2013\doc, Bishop)
бустинг (лекция «Композиционные методы классификации и регрессии» Воронцова)

Базовой алгоритм: бустинг.

Новизна: Выявление и объяснение сходств и различий решений, полученных двумя указанными алгоритмами.

11. Выбор оптимальных структур прогностических моделей методами структурного обучения

Консультант: А.А. Варфоломеева

Задача: Предлагается решать задачу прогнозирования в два этапа: сначала по историям построения успешных прогнозов восстанавливается структура прогностической модели. Затем параметры модели оптимизируются; с помощью модели строится прогноз временного ряда.

Данные: синтетическая выборка, биомедицинские временные ряды, результаты измерений акселерометра.

Литература:

Jaakkola T. Scaled structured prediction.
URL: http://video.yandex.ru/users/ya-events/view/486/user-tag/научный%20семинар/
Найти все работы учеников TJ по данной тематике.
Варфоломеева А.А. Дипломная работа бакалавра в MLAlgorithms/BSThesis/Varfolomeeva

Базовой алгоритм: алгоритм метапрогнозирования, описанный в дипломной работе.

Новизна: Предложен метод восстановления структур моделей с использованием априорных предположений об этих структурах.

12. Инварианты при прогнозировании квазипериодических рядов

Консультант: А.А. Кузьмин

Задача: Решается задача почасового прогнозирования цен/потребления электроэнегрии на сутки вперед. При построении матрицы плана предлагается использовать не исходный отрезок временного временной ряда, а его инвариантное представление.

Данные: почасовые данные о ценах и объема потребления электроэнергии (вставить ссылку).

Литература:

Сандуляну Л.Н., Стрижов В.В. Выбор признаков в авторегрессионных задачах прогнозирования // Информационные технологии, 2012, 7 — 11-15.
(взять из последней статьи Фадеева)

Базовой алгоритм: авторегрессионное прогнозирование, описанное в работе Сандуляну.

Новизна: Предложен алгоритм совместной оценки параметров инвариантов и авторегрессионной модели, позволяющий существенно повысить точность прогнозирования.

13. Прогнозирование объемов железнодорожных грузоперевозок по парам веток

Консультант: М.М. Стенина (Медведникова)

Задача: Спрогнозировать объемы перевозок с ветки на ветку, сравнить с базовым алгоритмом прогноза отправления вагонов с ветки. Проверить гипотезу о том, что прогноз перевозок с ветки на ветку точнее, чем прогноз при помощи базового алгоритма. Исследовать ряды на тренд/периодичность. Если тренд/периодичность есть, то включить в модель. Подготовить алгоритм прогнозирования для использования.

Данные: посуточные данные за полтора года о перевозках 38 типов грузов по Омской области.

Литература:

Вальков А.С., Кожанов Е.М., Медведникова М.М., Хусаинов Ф.И. Непараметрическое прогнозирование загруженности системы железнодорожных узлов по историческим данным // Машинное обучение и анализ данных. — 2012. — № 4.

Базовый алгоритм: гистограммное прогнозирование, описанное в статье.

Новизна: предлагается повысить качество прогноза путем разделения данных на меньшие части и прогнозирования перевозок по конкретным веткам вместо прогноза отправления вагонов.

14. Выбор оптимальной модели прогнозирования физической активности человека по измерениям акселерометра

Консультант: А.А. Токмакова

Задача: Предложить алгоритм последовательной модификации нейронной сети. Цель - найти наиболее простую, устойчивую и точную конфигурацию сети, позволяющую решить задачу двухклассового (вариант: многоклассового) прогнозирования физической активности.

Данные: Набор временных рядов измерений акселерометра.

Литература:

Прореживание нейронных семей на сайте Machinelearning.ru.
Хайкин С. Нейронные сети. Вильямс, 2006.

Базовой алгоритм: Optimal Brain Damage/Optimal Brain Surgery.

Новизна: Предложен способ последовательного порождения нейронных сетей оптимальной сложности. Исследована устойчивость порождаемых моделей.

15. Метапрогнозирование временных рядов

Консультант: А.С. Инякин, Н.П. Ивкин

Задача: Задан набор алгоритмов прогнозирования временных рядов. По предъявленному временному ряду требуется указать алгоритм, который доставляет наиболее точный прогноз. При этом сам алгоритм выполнять не предполагается. Для решения этой задачи предлагается построить набор признаков, описывающих временной ряд Экспертно создается набор порождающих функций, которые 1) преобразуют временной ряд (например, сглаживают, раскладывают по главным компонентам), 2) извлекают из временного ряда его агрегированные описания (например, среднее, дисперсию, число экстремумов). Возможно порождение значительного количества признаков путем построения суперпозиций порождающих функций.

Данные: Библиотека квазипериодических и апериодических временных рядов

Литература:

Кузнецов М.П., Мафусалов А.А., Животовский Н.К., Зайцев Е., Сунгуров Д.С. Сглаживающие алгоритмы прогнозирования // Машинное обучение и анализ данных. 2011. T. 1, № 1. C. 104-112.
Фадеев И.В., Ивкин Н.П., Савинов Н.А., Корниенко А.И., Кононенко Д.С., Джамтырова Р.Б. Авторегрессионные алгоритмы прогнозирования // Машинное обучение и анализ данных. 2011. T. 1, № 1. C. 92-103.

Базовой алгоритм: Использовать алгоритм SAS/SPSS.

Новизна: Предложен метод быстрого выбора оптимального прогностического алгоритма по описанию временного ряда.

16. Идентификация человека по изображению радужной оболочки глаза

Консультант: И.А. Матвеев

Задача: В проблеме идентификации человека по изображению радужной оболочки глаза (радужке) важнейшую роль играет выделение области радужки на исходном снимке (сегментация радужки). Однако, изображение радужки как правило частично закрыто (затенено) веками, ресницами, бликами, то есть часть радужки не может быть использована для распознавания и более того, использование данных с затенённых участков может порождать ложные признаки и снижать точность. Поэтому одним из важных этапов сегментации изображения радужки является отбраковка затенённых участков.

Данные: растровое монохромное изображение, типичный размер 640*480 пикселей (однако, возможны и другие размеры) и координаты центров и радиусы двух окружностей, аппроксимирующих зрачок и радужку.

Литература:

Описание задачи и предлагаемые пути решения
Monro D. University of Bath Iris Image Database // http:// www.bath.ac.uk/ elec-eng/ research/ sipg/ irisweb/
Chinese academy of sciences institute of automation (CASIA) CASIA Iris image database // http://www.cb-sr.ia.ac.cn/IrisDatabase.htm, 2005.
MMU Iris Image Database: Multimedia University // http:// pesonna.mmu.edu.my/ ccteo/
Phillips P.J., Scruggs W.T., O’Toole A.J. et al. Frvt2006 and ice2006 large–scale experimental results // IEEE PAMI. 2010. V. 32. № 5. P. 831–846.
G.Xu, Z.Zhang, Y.Ma Improving the performance of iris recogniton system using eyelids and eyelashes detection and iris image enhancement // Proc. 5Th Int. Conf. Cognitive Informatics. 2006. P.871-876.

Базовый алгоритм: метод, использующий скользящее окно и текстурные признаки [2006: Xu, Zhang, Ma].

Новизна: построена маска открытой области радужки.

17. Поиск эффективных методов снижения размерности при решении задач мультиклассовой классификации путем её сведения к решению бинарных задач

Консультант: Ю.В. Максимов

Задача: Исследовать различные подходы к решению задач классификации с многими классами и сравнить их эффективность.

Данные: Данные с различным числом классов. 0. Toy example: Shuttle dataset. http://archive.ics.uci.edu/ml/datasets/Statlog+(Shuttle). Маленькая выборка, 7 классов. Не надо делать подготовку данных. 1. Текстовые данные коллекции Reuters http://www.daviddlewis.com/resources/testcollections/reuters21578/. 2. Данные нашего конкурса Kaggle от LIG http://www.kaggle.com/c/lshtc

Литература:

Описание задачи и предлагаемые пути решения
Xia lecture. http://courses.washington.edu/ling572/winter2012/slides/ling572_class13_multiclass.pdf
Rifkin lecture http://www.mit.edu/~9.520/spring08/Classes/multiclass.pdf
Tax, Duin. Using two-class classiﬁers for multiclass classiﬁcation. Pattern Recognition, 2002. Proceedings. 16th International Conference on (Volume:2). http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.19.7063&rep=rep1&type=pdf
Dietterich, Bakiri. Solving Multiclass Learning Problems via Error-Correcting Output Codes. 1995. http://arxiv.org/pdf/cs/9501101
Allwein, Schapire, Singer. Reducing Multiclass to Binary:A Unifying Approach for Margin Classiﬁers. Journal of Machine Learning Research 1 (2000) 113-141. http://machinelearning.wustl.edu/mlpapers/paper_files/AllweinSS00.pdf

Базовые алгоритмы: SVM с различными ядрами, Adaboost. Базовые подходы: one vs all(combined), one vs one(uncombined)

Домашнее задание-2: пробное программирование

Задача	Кто делает	Номер
Дана выборка "Вина различных регионов". Требуется определить кластеры (регионы происхождения вин) и нарисовать результат: цветной точкой обозначен объект кластера; цветным кружком обозначен класс этого объекта, взятый из выборки. Вариант задания: определить число кластеров. Вариант задания: использовать два алгоритма, например k-means и EM, и показать сравнение результатов кластеризации на графике.	Плавин	1
Предложить способы визуализации наборов четырехмерных векторов, например для Fisher's iris data.	Записать свою фамилию тут.	2
Дан временной ряд, описывающий потребление электричества. Приблизить ряд несколькими криволинейными моделями и нарисовать спрогнозированные и исходный ряды на одном графике.	Кулунчаков Андрей.	3
Сгладить временной ряд Цены (объемы) на основные биржевые инструменты методом экспоненциального сглаживания. Нарисовать цветные графики сглаженных с различным $\alpha$ рядов и исходного ряда.	Авдюхов	4
Аппроксимация выборки замкнутой кривой [29]: проверить, лежат ли точки на окружности? Сгенерировать данные самостоятельно.	Газизуллина Римма	5
Дан временной ряд с пропусками, например [30]. Предложить способы заполнения пропусков в данных, заполнить пропуски. Для каждого способа построить гистограмму. Вариант: взять выборку без пропусков, удалить случайным образом часть данных, заполнить пропуски, сравнить с гистограммой исходной выборки.	Игнатов Андрей	6
Дана выборка "Вина различных регионов". Выбрать два признака. Рассмотреть различные функции расстояния при классификации с помощью метода ближайшего соседа. Для каждой изобразить результат классификации в пространстве выбранных признаков.	Попова Мария	7
Для различных видов зависимости $y = f(x) + \epsilon$ (линейная, квадратичная, логарифмическая) построить линейную регрессию и нарисовать на графике SSE-отклонения (среднеквадратичные отклонения-?). Данные сгенерировать самостоятельно или взять данные "Цена на хлеб".	Ефимова Ирина	8
Оценить площадь единичного круга методом Монте-Карло. Построить график зависимости результата от размера выборки.	Шинкевич Михаил	9
Построить выпуклую оболочку точек на плоскости. Нарисовать график: точки и их выпуклая оболочка – замкнутая ломаная линия.	Макарова Анастасия	10
Дана выборка: ирисы Фишера. Реализовать процедуру классификации методом решающего дерева. Проиллюстрировать результаты классификации на плоскости в пространстве двух признаков.	Жуков Андрей	11
Задан временной ряд – объемы почасового потребления электроэнергии (выбрать любые два дня). Аппроксимировать ряд полиномиальными моделями различных степеней (1-7). *Предложить метод определения оптимальной степени полинома.	Карасиков Михаил	12
Задано два одномерных временных ряда различной длины. Вычислить расстояние между рядами методом динамического выравнивания.	Гринчук Алексей	13
Сгенерировать набор точек на плоскости. Выделить и визуализировать главные компоненты.	Липатова	14
Аппроксимировать выборку цены на хлеб полиномиальной моделью. Нарисовать график. Пометить объекты, являющиеся выбросами, используя правило трех сигм.	Швец Михаил	15
Разделить выборку ирисы Фишера на кластеры. Проиллюстрировать на графике результаты кластеризации, выделить кластеры разными цветами.	Гущин Александр	16
И еще задания на выбор
Дана выборка из нескольких признаков, без целевого вектора Y. Например, эта https://dmba.svn.sourceforge.net/svnroot/dmba/Data/Diabets_LARS.csv Требуется указать тот признак, который хорошо описывается (в терминах линейной регрессии) остальными (такой признак обычно исключают из выборки).		17
Сгладить временной ряд (см. библиотеку) скользящим средним. Взять несколько окон разной длины и наложить результат на графике друг на друга.	Костюк	18
Дан временной ряд (см. библиотеку). По его вариационному ряду построить гистограмму из $n$ перцентилей, нарисовать ее. Какое значение временного ряда встречается чаще всего?	Гиззатуллин Анвар	19
Показать разницу в скорости выполнения матричных операций и операций в цикле. Можно использовать в качестве примера Сингулярное разложение и другие методы линейной алгебры. Показать эффективность параллельных вычислений (parfor).		20
Разобраться как работает суперпозиция функций. С помощью функции @ породить все возможные полиномы от n переменных степени не более p. Вариант: приблизить полученными полиномами временной ряд цен на хлеб (данные).

2013

Моя первая публикация с кросс-рецензированием

Задачи

Название задачи	Автор	Ссылка	MAIPVTDCHSJ
Определение напечатанного изображения	Пушняков Алексей	[31]	MAIPVTDCHSJ
Сравнение быстрых алгоритмов кластеризации	Катруца Александр	[32]	MAIPVTDCHS
Векторная авторегрессия и управление макроэкономическими показателями	Кащеева Мария	[33]	MAIPVTDCHS
Разметка библиографических записей с помощью логических алгоритмов	Рыскина Мария	[34]	MAIPVTDCHS
Определение точной границы зрачка	Чинаев Николай	[35]	MAIPV.DCHS
Векторная авторегрессия и управление макроэкономическими показателями	Гринчук Олег	[36]	MAIPVTD.HS
Порождение нейронных сетей с экспертно-заданными функциями активации	Перекрестенко Дмитрий	[37]	MAIPVTDСHS
Сравнительный анализ алгоритмов выбора признаков: точность, устойчивость, сложность регрессионных моделей	Яшков Даниил	[38]	MAI.VTD.HS
Инвариантные преобразования в задачах локального прогнозирования	Костин Александр	[39]	MAI.VT..HS
Алгоритм генетического программирования для решения задачи прогнозирования	Воронов Сергей	[40]	MAIPVTDC.S
Группировка номинальных переменных в задачах банковского кредитного скоринга	Митяшов Андрей	[41]	MAIPVTDCHS
Моделирование процесса обучения и забывания при оценке качества производства	Неклюдов Кирилл	[42]	MAI...DC.S
Обзор алгоритмов упрощения алгебраических выражений	Шубин Андрей	[43]	MAIPVTD.S
Алгоритмы переборного поиска наиболее информативных объектов и признаков в логистической регрессии	Ибраимова Айжан	[44]	MAIP.TD...
Интерпретация экспертных оценок видов Красной книги РФ путем отбора эталонных (представительных) объектов	Бырдин Александр	[45]	MAI..TD..S
Визуализация матрицы парных расстояний в тематическом моделировании	Вдовина Евгения	[46]	MAI..TDC.S
Алгоритм оценивания достоверности экспертных суждений о взаимосвязи временных рядов	Антипова Наташа	[47]	MAIP.T...S

Задача 2. Surname2013MassProduction (*eng)

Название. Порождение и оптимизация логических описаний при построении производственных линий.
Проблема. Требуется поставить задачу синтеза допустимых суперпозиций, разработать алгоритм и протестировать его на синтетических данных.
Данные. Требуется создать.
Литература. Нужен поиск (скорее всего немецких публикаций).
Предлагаемый алгоритм. Обсуждается.
Базовый алгоритм. Нет.

Задача 3. Surname2013LearnForget (eng)

Название. Моделирование процесса обучения и забывания при оценке качества производства.
Проблема. Найти адекватную регрессионную модель, описывающую деятельность группы людей.
Данные. Данные по скорости и качеству сборки бумажных самолетиков.
Литература. Нужно искать.
Предлагаемый алгоритм. Процедура анализа регрессионных остатков.
Базовый алгоритм. Регрессионная модель в прилагаемой статье.

Задача 4. Surname2013GeneticProg

Название. Алгоритм генетического программирования для решения задачи прогнозирования.
Проблема. Создать алгоритм генетического программирования, решающий проблемы, названные Иваном Зелинкой. Предложить способ тестирования получаемых моделей, организовать скользящий контроль. Сравнить работу его на тестовом наборе задач с работой других алгоритмов ГП и с нейронными сетями.
Данные. Тестовый набор задач, взять на UCI или на Полигоне.
Литература. Zelinka, Oplatkova, Vladislavleva; найти работы последних лет по этой теме. Особенно по тестированию этих алгоритмов.
Предлагаемый алгоритм. ГП.
Базовый алгоритм. ГП, нейронные сети.

Задача 5. Surname2013Simplify

Название. Обзор алгоритмов упрощения алгебраических выражений.
Проблема. Требуется найти литературу по алгоритмам, упрощающим выражения, сравнить алгоритмы, запрограммировать алгоритм, предложенный в работе Рудой/Стрижов.
Данные. Собрать тестовую коллекцию выражений.
Литература. Graph rewriting.
Предлагаемый алгоритм. Р/С, сравнение алгоритмов.

Задача 6. Surname2013RedListExplanation

Название. Интерпретация экспертных оценок видов Красной книги РФ путем отбора эталонных (представительных) объектов.
Проблема. Отбор эталонных объектов (алгоритм STOLP). Этот алгоритм может быть интересен для экспертов: он быстро находит шумовые объекты, которых в наших терминах считаются противоречащими экспертным данным и "лежащими не в своем классе", а также отбирает эталонные объекты, которые также любопытно интерпретируются. С математической точки зрения интересно, во-первых, понаблюдать за разными метриками (обобщениями расстояния Хэмминга) и, самое главное, надо обобщить формулу отступа (margin) на случай монотонных классов, видимо, введя весовую функцию объектов.
Данные. Экспертные оценки краснокнижных видов.
Литература. Литература по алгоритмам метрической классификации.
Предлагаемый алгоритм. Метод или алгоритм, который сообщает эксперту почему (sic!) объект не попал в предполагаемый экспертом класс.

Задача 7. Surname2013RedListClassification

Название. Алгоритм монотонной классификации объектов, описанных в ранговых шкалах.
Проблема. Применить решающее дерево к экспертным оценкам угрожаемости краснокнижных видов. Сравнить с ранее предложенными алгоритмами. Обосновывать операции с ранговыми признаками, ввести обобщение понятия информативности на случай монотонных классов, видимо, сделать обобщение гипергеометрического распределения.
Данные. Экспертные оценки краснокнижных видов.
Литература. Нужно постараться избежать ссылок на тривиальные источники. Поискать похожие работы в иностранных журналах.

Задача 11. Surname2013Invaraint4LocalForecast

Название. Инвариантные преобразования в задачах локального прогнозирования.
Проблема. Совместить алгоритмы инвариантного преобразования времени и амплитуды прогнозируемых временных рядов.
Данные. Временные ряды измерения пульсовой волны.
Литература. Найти, избежать тривиальных ссылок.

Задача 8. Surname2013PlausibleExpert

Название. Алгоритм оценивания достоверности экспертных суждений о взаимосвязи временных рядов.
Проблема. Исследование взаимосвязи биржевых цен на основные инструменты и железнодорожных грузоперевозок.
Данные. Временные ряды за 1.5 года. Но лучше подобрать синтетический пример.
Литература. Публикации по CCM.
Предлагаемый алгоритм. Модификации ССМ.

Задача 9. Surname2013DeepLearning

Название. Порождение нейронных сетей с экспертно-заданными функциями активации.
Проблема. Требуется поднять современное состояние области DeepLearning, запрограммировать алгоритм, протестировать на задаче прогнозирования объемов потребления и цен на электроэнергию.
Данные. Посуточные данные за три года.
Литература. Deep Learning.
Предлагаемый алгоритм. Построение нейронной сети и оценка ее параметров.

Задача 16. Surname2013ScoringSelection

Название. Алгоритмы переборного поиска наиболее информативных объектов и признаков в логистической регрессии.
Проблема. С помощью генетического алгоритма найти информативные объекты и признаки.
Данные. Данные по потребительским кредитам.
Литература. -

Задача 10. Surname2013ScoringFeatureSelection

Название. Группировка номинальных переменных в задачах банковского кредитного скоринга.
Проблема. Создать генетический алгоритм снижения размерности признакового пространства.
Данные. Исторические данные по кредитам наличностью.
Литература. SAS, найти еще.

Задача 15. Surname2013InverseVAR

Название. Векторная авторегрессия и управление макроэкономическими показателями.
Проблема. Решить обратную задачу прогнозирования. По заданному состоянию экономики задать такое значение управляемых макроэкономических показателей, которое бы привело экономику в желаемое состояние.
Данные. Макроэкономические показатели России за последние 16 лет.
Литература. Работы С.А. Айвазяна.

Задача 12. Surname2013DistanceVisualizing

Название. Визуализация матрицы парных расстояний в тематическом моделировании.
Проблема. Отобразить тезисы конференции на плоскости с сохранением кластеров.
Данные. Тезисы конференции EURO.
Литература. Зиновьев на ML, литература по теме.
Предлагаемый алгоритм. PCA.
Базовый алгоритм. Алгоритм с минимизацией энергетического критерия.

Задача 13. Surname2013RhoNets

Название. Сравнение быстрых алгоритмов кластеризации.
Проблема. Сравнить алгоритм кластеризации с использованием $\rho$-сетей и быстрый алгоритм $k$-средних.
Данные. Была выборка аминокислотных последовательностей. Нужна тестовая выборка из UCI или из работ по сравнению.
Литература. $k$-средних, $\varepsilon$-сети.
Предлагаемый алгоритм. $\rho$-сети.
Базовый алгоритм. $k$-средних.

Задача 17. Surname2013FeatureSelection

Название. Сравнительный анализ алгоритмов выбора признаков: точность, устойчивость, сложность регрессионных моделей.
Проблема. Построить ряд тестовых задач для сравнения алгоритмов. Предложить алгоритм выбора признаков с анализом ковариационных матриц, основанных на методе Белсли.
Данные. Синтетические.
Литература. Леонтьева/Стрижов, поискать современные обзоры.

Задача 1. Surname2013Txt2Bib

Название. Разметка библиографических записей с помощью логических алгоритмов.
Проблема. Требуется создать алгоритм разметки текста. Новизна в постановке задачи. Актуальность в том, что будет создана более полная библиотека логических выражений и выбран адекватный алгоритм.
Данные. В MLAlgorithms.
Литература. Работа А. Ивановой и все, что есть по теме за последние два года.
Предлагаемый алгоритм. Выбрать из логических алгоритмов классификации; дополнительно кластеризация.
Базовый алгоритм. Тупиковые покрытия.

Задача 14. Surname2013FindTheFormula (Risky)

Название. Алгоритм поиска текстовых структур в документе.
Проблема. Предложить алгоритм, который бы в документе TeX искал бы формулы, эквивалентные заданной.
Данные. Синтетические, коллекция MLAlgorithms.
Литература. Надо искать. Поиск по химическим соединениям в WoK работает неплохо.

Задача 18. Surname2013ScannedImage (Image)

Название. Определение типа бланка.
Проблема. Определить тип бланка по скану.
Данные. Набор изображений в TIF.

Задача 19. Surname2013SpectrumImage (Image)

Название. Определение напечатанного изображения.
Проблема. Сделать спектральное преобразование изображения, исследовать спектр.
Данные. Набор изображений в JPG, отнесенных в два класса.

Задача	Кто делает
Дан набор трехэлементных векторов. Первые два элемента нарисовать по осям абсцисс и ординат. Третий элемент отобразить как круг с пропорциональным радиусом. Пропорции подобрать исходя из чувства прекрасного. Сравнить полученный график с plot3. Что лучше?	Митяшов Андрей
Дан пятиэлементный вектор. Нарисовать лицо Чернова. Что лучше - лицо Чернова или диаграмма?	Неклюдов Кирилл
Разобраться как работает regexp в Матлабе. Сделать код, который выделяет все, что находится внутри скобок некоторого арифметического выражения.	Рыскина Мария
Разобраться как работает суперпозиция функций. С помощью функции @ породить все возможные полиномы от n переменных степени не более p.	Шубин Андрей
Разобраться как работает web-соединение и regexp. Сделать поисковый запрос по теме и сверстать из нее запись BibTeX.
Дан временной ряд из m + 1 (случайных) точек. Приблизить m его первых точек полиномами степени от 1 до m. Вычислить среднюю ошибку в точках. Какая степень дает наибольшую ошибку?	Воронов Сергей
Повернуть и увеличить плоскую фигуру, сделать эффект приближения с вращением по кадрам.	Антипова Наташа
Заданы две матрицы. Проверить, есть ли в них пересечение – подматрица?	Вдовина Евгения
Дана выборка из нескольких признаков, без целевого вектора Y. Например, эта https://dmba.svn.sourceforge.net/svnroot/dmba/Data/Diabets_LARS.csv Требуется указать тот признак, который хорошо описывается (в терминах линейной регрессии) остальными (такой признак обычно исключают из выборки).	Гринчук Олег
Дана выборка, в которой есть несколько выбросов. Известно, что она может быть описана одномерной линейной регрессией. Требуется переборным путем найти выбросы. Показать их на графике.	Пушняков Алексей
Дана выборка из двух классов на плоскости. Требуется найти все объекты, которые залезли в чужой класс. Показать их на графике.	Кащеева Мария
На вход подается матрица инцидентности дерева. Функция возвращает список (вектор) вершин в порядке их посещения.	Ибраимова Айжан
Классифицировать цветы ириса произвольным алгоритмом, нарисовать на плоскости «самую наглядную» пару признаков, указать, что классифицировалось правильно, а что – нет.	Яшков Даниил
Дан временной ряд. По его вариационному ряду построить гистограмму из n перцентилей, нарисовать ее. Какое значение временного ряда встречается чаще всего?
Создать несколько групп точек на плоскости и выполнить их кластеризацию, используя любой алгоритм на выбор. Визуализировать полученные кластеры. Посчитать среднее внутрикластерное расстояние для одного кластера.	Перекрестенко Дмитрий
Загрузить звуковой ряд, желательно несколько нот фортепиано. Выделить и проиграть определенную ноту.
Загрузить видеоряд. Удалить каждый второй кадр. Обработать по вкусу. Записать обратно.	Бырдин Александр
Показать разницу в скорости выполнения матричных операций и операций в цикле. Показать эффективность параллельных вычислений (parfor и другие).	Катруца Александр
Предложить варианты визуализации четырехмерных векторов и пространств. Сравнить их со встроенной функцией.
Сгладить временной ряд скользящим средним. Взять несколько окон разной длины и наложить результат на графике друг на друга.	Чинаев Николай
Нарисовать поверхность. Каждую точку поверхности заменить медианой от n соседей. Нарисовать результат.	Костин Александр

2012

Тематическое моделирование: публикация в журнале ВАК

Статус публикации работ см. внизу страницы, раздел "Публикация работ". Ожидается публикация всех работ до конца мая 2013.

Список задач

Название задачи	Автор	Ссылка на работу	Комментарии
Вычисление интегральных индикаторов в ранговых шкалах методами ко-кластеризации	Медведникова Мария	[48]	Опубликовано
Иерархическая тематическая кластеризация тезисов и визуализация	Кузьмин Арсентий	[49]	Опубликовано
Совместный выбор объектов и признаков в задачах многоклассовой классификации.	Адуенко Александр	[50]	Опубликовано
Построение иерархических тематических моделей	Цыганова Светлана	[51]	Опубликовано
Выбор признаков в задачах структурной регрессии	Варфоломеева Анна	[52]	Принято
Статистические критерии однородности и согласия для сильно разреженных дискретных распределений	Целых Влада	[53]	Опубликовано
Построение логических правил при разметке текстов	Иванова Алина	[54]	Принято
Проверка адекватности тематической модели	Степан Лобастов	[55]	Редакция

1. 2012CoRegression

Название: Вычисление интегральных индикаторов в ранговых шкалах методами ко-кластеризации.
Тизер: Построение интегральной оценки эффективности научной деятельности.
Данные: Синтетические. ПРНД сотрудников. Таблица авторы-журналы и число статей выбранных авторов в журналах.
Литература: К.В.Воронцов «Коллаборативная фильтрация».
Ключевые слова: индекс Хирша, ко-кластеризация, коллаборативная фильтрация.
Предлагаемый алгоритм Совместная регрессия (придумать или найти готовую).
Базовый алгоритм: Вычисленный IF журналов и h-index авторов. (Кокластеризация или адаптивная фильтрация для сравнения на годится).
Проблема: Описание в файле. Дополнительно: при создании рейтинга встает проблема разбиения множества авторов и журналов на кластеры. Размер кластера требуется соотнести с "Оценкой вовлеченности автора/журнала в научное сообщество". Эта оценка должна войти в рейтинг (в крайнем случае, должна быть представлена отдельно).

2. 2012ExpertRanking

Название: Согласование ранговых экспертных оценок.
Тизер: Методы ранжирования при голосовании (выборе литературных произведений, выборе ограниченного комитета).
Данные: Интернет-голосование за список книг, голосование без кооптации.
Литература: Статья в Notices AMS, 2008, 55(4). Нужно будет сделать обзор литературы по этой проблеме.
Предлагаемый алгоритм: Нахождение пересечения конусов и оценка эффективной размерности пространства или другой алгоритм.
Базовый алгоритм: Медиана Кемени и другие алгоритмы.
Проблема: Требуется проиллюстрировать и изучить свойства алгоритма выбора комитета. В частности, осветить следующую проблему. Рейтинг n выбранных кандидатов отличается от рейтинга n+k выбранных кандидатов, при единственном голосовании с выбором из N кандидатов. Возможно, требуется осветить парадокс Эрроу.

3. 2012StructureRegression

Название: Выбор признаков в задачах структурной регрессии
Тизер: Алгоритм структурной регрессии для разметки библиографических списков, тезисов и других структурированных текстов.
Данные: библиографические записи из BibTeX collection on CS.
Литература: работы Jaakkola и его команды, возможно, код.
Предлагаемый алгоритм: Структурная регрессия.
Базовый алгоритм: описан Валентином.
Требуется: сегментировать входной текст и поставить в соответствие каждому сегменту поле, а каждой группе полей - тип библиографической записи.

4. 2012LogicClassification

Название: Построение логических правил при разметке текстов
Тизер: Алгоритм структурной регрессии для разметки библиографических списков, тезисов и других структурированных текстов.
Данные: библиографические записи из BibTeX collection on CS / тезисы конференций, другие размеченные тексты.
Литература: работы Инякина, Чувилина, Кудинова.
Предлагаемый алгоритм: Решающие деревья, тупиковые покрытия.
Базовый алгоритм: описан Валентином.
Требуется: обучить модель, разметки текста, используя решающие правила над RegExp - строками.

5. 2012RankClustering

Название: Ранговая кластеризация и алгоритмы динамического выравнивания.
Тизер: Поиск дубликатов в библиографических записях. Динамическое выравнивание при нахождении дубликатов библиографических записей.
Данные: Испорченные и некорректные библиографические записи (базы студенческих рефератов). Более 1000 библиографических записей из статей/книг по анализу данных.
Литература: Стрижов et al. «Метрическая кластеризация последовательностей», работы по быстрой кластеризации k-Means.
Ключевые слова: DTW — модификации, k-Means.
Предлагаемый алгоритм: Алгоритм ранговой кластеризации.
Базовый алгоритм: k-Means и его высокопроизводительные вариации.
Проблема: Требуется модифицировать процедуру вычисления стоимости пути выравнивания так, чтобы обнаруживать и учитывать инварианты перестановок (и допустимых модицикаций) частей библиографической записи.

6. 2012ThematicClustering

Название: Проверка адекватности тематической модели.
Тизер: Методы выявления некорректной тематической классификации на материалах конференции. Методы построения тематической модели, сходной с заданной. Кластеризация статей, иерархические тематические модели с тематической интерпретируемостью. Иерархическая тематическая кластеризация тезисов.
Данные: Тексты тезисов конференции Евро-2012, 1862 тезиса.
Литература: по кластеризации, и введению расстояний между текстами как мешками слов.
Ключевые слова: иерархическая кластеризация, метрики сходства текстов.
Предлагаемый алгоритм: алгоритм иерархической кластеризации k-means + классификация k-NN.
Базовый алгоритм: k-Means
Проблема: Требуется построить тематическую модель методом кластеризации и проверить корректность текущей классификации текстов. Для этого выполняется (иерархическая) кластеризация текстов, каждому кластеру ставится в соответствие название темы, соответствующее большинству статей из кластера. После построения модели каждая статья проверяется и относится к своей или к чужой теме.

7. 2012ThematicHierarchy

Название: Построение иерархических тематических моделей.
Тизер: Иерархическая тематическая кластеризация тезисов. Построение тематической модели на материалах конференции.
Данные: Тексты тезисов.
Литература: иерархические модели, topic modelling.
Ключевые слова: иерархическое тематическое моделирование.
Предлагаемый алгоритм: иерархические модели, оценка распределения по темам.
Базовый алгоритм: PLSA--LDA.
Проблема: Требуется построить иерархическую тематическую модель путем вычисления статистических оценок функций распределения слов по темам.

8. 2012ThematicVisualizing

Название: Визуализация иерархических тематических моделей.
Тизер: На материалах конференции EURO.
Данные: Тексты тезисов конференции Евро-2012.
Литература: многомерное шкалирование, кластеризация.
Ключевые слова: визуализация графов.
Предлагаемый алгоритм:
Базовый алгоритм: --
Проблема: Требуется визуализировать матрицу парных расстояний таким образом, чтобы можно было принять решение о
- корректировки названий тем/подтем конференции,
- переносе тезиса из одной темы в другую,
- адекватности соответствия модельной и фактический кластеризации.

9. 2012CovSelection

Название: Совместный выбор объектов и признаков в задачах многоклассовой классификации.
Тизер: Ранжирование поисковых выдач Яндекса.
Данные: Яндекс – математика.
Литература: Бишоп, Стрижов.
Ключевые слова: логистическая регрессия, выбор признаков, фильтрация объектов.
Предлагаемый алгоритм: Совместный выбор путем анализа ковариационных матриц.
Базовый алгоритм: SVM.
Проблема: Взять матрицу T, с. 209 Бишопа, сделать многоклассовую классификацию (с. 208). Проверить на синтетической выборке того же формата, что и данные Яндекса. (Для сравнения запустить алгоритм SVM на этой же выборке.Связать с выбором признаков.) Оценить матрицы гиперпараметров многоклассовой регрессионной модели. Предложить пошаговый алгоритм совместного выбора с максимизацией правдоподобия модели.

10. 2012ThematicMatching

Название: Определение соответствия документа тематике на основе выделения ключевых фраз.
Тизер: Соответствует ли диссертация объявленному паспорту диссертации? Какова фактическая специальность диссертации?
Данные: Авторефераты диссертаций (SugarSync). Паспорта специальностей.
Литература: (Статья С. Царькова «Морфологические и статистические методы выделения ключевых фраз для построения вероятностных тематических моделей коллекций текстовых документов» - проверить).
Ключевые слова: ключевые фразы, тематические модели, N-граммы, морфологические и статистические признаки.
Предлагаемый алгоритм:
Базовый алгоритм: C-Value и TF-IDF.
Проблема: Требуется проверить каждый автореферат из коллекции на формальное соответствие паспорту декларируемой в автореферате специальности. При этом пункты паспорта рассматриваются как описания тем. Реферат считается соответствующим данной теме, если в совокупная вероятность принадлежности заданного числа терминов к одному из описаний темы данной специальности выше, чем принадлежность описаниям темы других специальностей.
Проблема, еще раз: Выделяем ключевые слова из документа. Считаем, что паспорт специальности состоит из ключевых слов. Находим расстояния от одного набора ключевых слов до другого. В итоге
- пополняем паспорт известной специальности новыми ключевыми словами, либо
- находим ближайший паспорт специальности.
Варианты решения: Введение функции расстояния от совокупности терминов до описания темы, построение матрицы таких расстояний.

11. 2012FeatureGen

Название: Последовательное порождение и выбор признаков в задаче многоклассовой классификации
Тизер: Научно ли данное произведение? Определение типа произведения (определение научной области произведения). Определение социальной роли автора текста.
Данные: синтетические, интернет-коллекция.
Литература: Стрижов, Рудой.
Ключевые слова: порождение признаков, поиск изоморфных моделей.
Предлагаемый алгоритм: алгоритм последовательного порождения суперпозиций.
Базовый алгоритм: решающие деревья.
Проблема: Требуется построить набор признаков, по которым можно классифицировать текст.

12. 2012TypeDetection

Название: Методы извлечения признаков из текстовой информации
Тизер: Научно ли данное произведение? Определение типа произведения (определение научной области произведения). Определение социальной роли автора текста.
Данные: синтетические, интернет-коллекция.
Литература Найти.
Ключевые слова: иерархическая кластеризация, structural learning, метрики сходства текстов.
Предлагаемый алгоритм.
Базовый алгоритм.
Проблема: Требуется построить набор признаков, по которым можно классифицировать текст.

Темы К.В. Воронцова

2012SparceDistribution Статистические критерии однородности и согласия для сильно разреженных дискретных распределений (В.Ц.)

2012LatentModels

Название: Проверка адекватности тематической модели.
Тизер: Методы выявления некорректной тематической классификации на материалах конференции. Методы построения тематической модели, сходной с заданной. Кластеризация статей, иерархические тематические модели с тематической интерпретируемостью. Иерархическая тематическая кластеризация тезисов.
Данные: Тексты тезисов конференции Евро-2012, 1862 тезиса.
Литература: по латентным моделям.
Ключевые слова: мягкая кластеризация, латентные модели.
Предлагаемый алгоритм: hHDP.
Базовый алгоритм: HDP.
Проблема: Требуется построить тематическую модель методом кластеризации и проверить корректность текущей классификации текстов. Для этого выполняется (иерархическая) кластеризация текстов, каждому кластеру ставится в соответствие название темы, соответствующее большинству статей из кластера. После построения модели каждая статья проверяется и относится к своей или к чужой теме.

Ссылки

https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/utilities В SugarSync/remarks находится документ с одной из возможных функций расстояния между текстами.

Литература

https://www.sugarsync.com Файлохранилище, где находятся материалы по проекту. Доступ к соответствующей папке предоставлен по адресу электронной почты. Материалы включают публикации по каждой теме.

Публикация работ

Легенда: Редакция >> Подать (оформление для журнала) >> Подано >> Принято (рецензентами) >> Верстка (замечания рецензентов и редактора учтены) >> Опубликовано (вышел номер).

Название задачи	Автор	Ссылка на журнал	Исходный текст работы	Дата подачи	Состояние
Выбор признаков и оптимизация метрики при кластеризации коллекции документов	Адуенко А.А., Кузьмин А.А., Стрижов В.В.	Известия ТулГу	[56]	12.10.2012	Опубликовано
Оценивание вероятностей появления строк в коллекции документов	Будников Е.А., Стрижов В.В.	Информационные технологии	[57]	24.09.2012	Опубликовано
Проверка адекватности тематических моделей коллекции документов	Кузьмин А.А., Стрижов В.В.	Программная инженерия	[58]	17.12.2012	Опубликовано
Алгоритм оптимального расположения названий коллекции документов	Адуенко А.А., Стрижов В.В.	Программная инженерия	[59]	13.11.2012	Опубликовано
Визуализация матрицы парных расстояний между документами	Адуенко А.А., Стрижов В.В.	Научно-технические ведомости С.-Пб.ПГУ	[60]	29.10.2012	Подано
Построение интегрального индикатора качества научных публикаций методами ко-кластеризации	Медведникова М.М., Стрижов В.В.	Известия ТулГу	[61]	15.11.2012	Опубликовано
Совместный выбор объектов и признаков в задачах многоклассовой классификации коллекции документов	Адуенко А.А., Стрижов В.В.	Инфокоммуникационные технологии	[62]	18.12.2012	Опубликовано
Алгоритм построения логических правил при разметке текстов	Иванова А.В., Адуенко А.А., Стрижов В.В.	Программная инженерия	[63]	24.01.2013	Принято
Построение иерархических тематических моделей коллекции документов	Цыганова С.В., Стрижов В.В.	Прикладная информатика	[64]	27.01.2013	Опубликовано
Выбор признаков при разметке библиографических списков методами структурного обучения	Варфоломеева А.А., Стрижов В.В.	Научно-технические ведомости С.-Пб.ПГУ	[65]	27.01.2013	Отрецензировано
Критерии согласия для разреженных дискретных распределений и их применение в тематическом моделировании	Целых В.Р., Воронцов К.В.	Машинное обучение и анализ данных	[66]	17.12.2012	Опубликовано
Проверка адекватности тематической модели	Степан Лобастов		[67]		Редакция

Список принятых к публикации работ

1. Адуенко А. А., Стрижов В. В. Визуализация матрицы парных расстояний между документами // Научно-технический вестник С.-Пб. ПГУ. Информатика. Телекоммуникации. Управление, 2013, 1 — ?.
2. Адуенко А. А., Кузьмин А. А., Стрижов В. В. Выбор признаков и оптимизация метрики при кластеризации коллекции документов // Известия Тульского государственного университета, Естественные науки, 2012, № 3. С. 119-132.
3. Адуенко А. А., Стрижов В. В. Алгоритм оптимального расположения названий коллекции документов // Программная инженерия, 2013. № 3. С.21-25.
4. Будников Е. А., Стрижов В. В. Оценивание вероятностей появления строк в коллекции документов // Информационные технологии, 2013. № 4.
5. Кузьмин А. А., Стрижов В. В. Проверка адекватности тематических моделей коллекции документов // Программная инженерия, 2013. № 4.
6. Медведникова М. М., Стрижов В. В. Построение интегрального индикатора качества научных публикаций методами ко-кластеризации // Известия Тульского государственного университета, Естественные науки, 2013. №1.
7. Адуенко А. А., Стрижов В. В. Совместный выбор объектов и признаков в задачах многоклассовой классификации коллекции документов // Инфокоммуникационные технологии, 2013. № 2.
8. Иванова А.В., Адуенко А. А., Стрижов В. В. Алгоритм построения логических правил при разметке текстов // Программная инженерия, 2013. № 4(5).
9. Цыганова С.В., Стрижов В. В. Построение иерархических тематических моделей коллекции документов // Прикладная информатика, 2013. № 1.
10. Варфоломеева А.А., Стрижов В. В. Выбор признаков при разметке библиографических списков методами структурного обучения // Научно-технический вестник С.-Пб. ПГУ. Информатика. Телекоммуникации. Управление, 2013.
11. Целых В.Р., Воронцов К.В. Критерии согласия для разреженных дискретных распределений и их применение в тематическом моделировании // JMLDA, 2012. №4. С. 432-442.

Моя первая публикация с кросс-рецензированием

Список задач

Название задачи	Автор	Рецензент	Ссылка на работу	Комментарии
CMARS: аппроксимация сплайнами	Влада Целых	Татьяна Шпакова	Celyh2012CMARS	[.]сaipvdstrj(10)
Алгоритмические основы построения банковских скоринговых карт	Александр Адуенко	Алина Иванова	Aduenko2012economics	[.]сaipvdstrj(10)
Использование метода главных компонент при построении интегральных индикаторов	Мария Медведникова	Светлана Цыганова	Medvednikova2012PCA	[r]сaipvdstrj(10)
Многоуровневая классификация при обнаружении движения цен	Арсентий Кузьмин	Анна Варфоломеева	Kuzmin2012TimeRows	[r]сaipvdstjr(10)
Локальные методы прогнозирования с выбором инвариантного преобразования	Светлана Цыганова	Мария Медведникова	Tsyganova2012 LocalForecast	[r]сaipvdstjr(10)
Прогноз квазипериодических многомерных временных рядов непараметрическими методами (пример)	Егор Клочков	Александр Шульга	Klochkov2012Goods4Cast	[r]сaipvdstj.(10)
Алгоритмы переборного поиска наиболее информативных объектов и признаков в логистической регрессии (пример)	Степан Лобастов	Егор Клочков	Lobastov2012FOSelection	[r]сaipvdstrj(10)
Локальные методы прогнозирования с выбором метрики	Анна Варфоломеева	Арсентий Кузьмин	Varfolomeeva2012 LocForecastMetrics	[r]сaipvdstjr(10)
Полиномы Чебышева и прогнозирование временных рядов	Валерия Бочкарева	Степан Лобастов	Bochkareva2012TimeSeriesPrediction	[.]сaipvdst-r(9)
Кластеризация и составление словаря аминокислотных последовательностей	Татьяна Шпакова	Влада Целых	Shpakova2012Clustering	[.]сaipvdst..(9)
Векторная авторегрессия и управление макроэкономическими показателями	Александр Шульга		Shulga2012VAR	[.]сaipvds...(9)
Аппроксимация эмпирических функций распределения	Алина Иванова	Александр Адуенко	Ivanova2012 ApproximateFunc	[r]сaipvd....(9)

Аннотации

Алгоритмы переборного поиска наиболее информативных объектов и признаков в логистической регрессии

Логистическая регрессия – это статистическая модель, которая применяется для предсказания вероятности возникновения некоторого события по значениям множества признаков. Она находит применение, например, в медицине [68] и кредитном скроллинге. В реальных условиях число признаков обычно велико, и важнейшей задачей является выбор только существенных признаков , а также поиск объектов, которые по тем или иным причинам являются атипичными.

Ключевые слова: logit model, feature selection, boosting.

Использование метода главных компонент при построении интегральных индикаторов

В данной работе рассматривается использование метода главных компонент при построении интегральных индикаторов. Полученные результаты сравниваются с результатами, даваемыми методом расслоения Парето. Строится интегральный индикатор для российских вузов. Для этого используются биографии 30 богатейших бизнесменов России по версии журнала "Forbes" за 2011 год.

Ключевые слова: интегральный индикатор, экспертные оценки, веса параметров, метод главных компонент, метод расслоения Парето.

Аппроксимация эмпирических функций распределения

Работа посвящена методам аппроксимации функций для эффективного вычисления интегралов. В практических задачах обычно имеются данные в определенных точках времени или пространства. При построении предположений об остальных точках возникает необходимость аппроксимации функции распределения исследуемой величины, а также оценка соответствующей ошибки. Для ее расчета есть возможность использовать методы разной точности.

Ключевые слова: метод Монте-Карло, вычисление функцй распределения, эмпирические функции распределения.

Методы локального прогнозирования с выбором преобразования

Задачи прогнозирования временных рядов имеют множество приложений в различных областях, таких как экономика, физика, медицина. Их решением является прогноз на недалекое будущее по уже известным значениям прогнозируемого ряда в предыдущие моменты времени. В работе будет построен алгоритм локального прогнозирования с учетом преобразований, позволяющий без участия человека выявить визуально похожие участки временного ряда.

Ключевые слова: локальное прогнозирование, преобразование

Черновой список задач

Кластеризация и составление словаря аминокислотных последовательностей
Oblivious decision trees: алгоритм Яндекс для системы Полигон
Сравнительный анализ регрессионных остатков в SVN-регрессии
Алгоритмы нахождения гауссовских смесей
Прогноз квазипериодических многомерных временных рядов непараметрическими методами
Многоуровневая классификация при обнаружении движения цен
CMARS: аппроксимация сплайнами
Полиномы Чебышева и метод прогонки при прогнозировании временных рядов
Сравнение методов ARMA и FLS при ретроспективном прогнозировании
Локальные методы прогнозирования с выбором метрики
Локальные методы прогнозирования с выбором инвариантного преобразования
Алгоритмы переборного поиска наиболее информативных объектов и признаков в логистической регрессии
Векторная авторегрессия и управление макроэкономическими показателями
Построение рейтинга российских вузов по открытым данным об успешности карьеры их выпускников

Ещё задачи

Анализ текста методами структурного обучения
Аппроксимация эмпирических функций распределения
Алгоритмические основы построения банковских скоринговых карт
Сингулярное разложение и поисковая машина
Сравнение алгоритмов многокритериальной оптимизации
Уточнение экспертных оценок на данных в ранговых шкалах (интервальные, конусы, веса экспертов, копулы)
Уточнение экспертных оценок при анализе работы механизма устойчивого развития энергетики
Визуализация пространства параметров регрессионных моделей
Восстановление регрессии методом главных компонент
Оценка гиперпараметров путем сэмплирования
Прореживание существенно нелинейных моделей с помощью гиперпараметров
Фактор Оккама для параметрических моделей с известной областью определения параметров
Создание алгоритмов последовательной модификации моделей
Порождение и выбор моделей классификации

И еще задачи

Функция расстояния между формулами и поиск.
Поиск объектов (техническая работа).

+

Авторегрессия
Векторная авторегрессия
Экспоненциальное сглаживание
Локальные методы, поиск метрики
Локальные методы с инвариантами, метрика фиксирована
ARIMA
Многомерная гусеница, выбор длины гусеницы
Многомерная гусеница, выбор рядов
Прогнозирование с использованием DTW
Скользящее среднее, выбор ядер
Скользящее среднее с забыванием истории
Скользящее среднее временных рядов с периодической составляющей
Прогнозирование нейронными сетями
Анализ качества прогноза
Метаописание временных рядов
Логическое прогнозирование
SVN – регрессия
Дискретное прогнозирование, музыка.

Составить

Список типичных типографических ошибок
Список ошибок BibTeX

2011

Публикация в журнале JMLDA

Перед выполнением заданий рекомендуются к прочтению

Задачи

Название задачи	Работу выполняет	Рецензент	Ссылка на работу
Оценивание гиперпараметров линейных регрессионных моделей при отборе шумовых и коррелирующих признаков	Токмакова Александра	Мотренко Анастасия	Tokmakova2011HyperPar
Выбор моделей прогнозирования цен на электроэнергию	Леонтьева Любовь	Гребенников Евгений	Leonteva2011ElectricityConsumption
Многоклассовый прогноз вероятности наступления инфаркта и оценка необходимого объема выборки пациентов (пример)	Мотренко Анастасия	Токмакова Александра	Motrenko2011HAPrediction
Алгоритмы порождения существенно-нелинейных моделей	Георгий Рудой	Николай Балдин	Rudoy2012Generation
Событийное моделирование и прогноз финансовых временных рядов	Александр Романенко	Егор Будников	Romanenko2011Event
Обзор некоторых статистических моделей естественного языка	Егор Будников	Александр Романенко	Budnikov2011Statistical

Моя первая публикация в журнале JMLDA

Перед выполнением заданий рекомендуются к прочтению

См. также

Временной ряд (библиотека примеров)

Задачи

Название задачи	Работу выполняет	Работу рецензирует	Ссылка на работу	Комментарии
Использование теста Гренджера при прогнозировании временных рядов	Анастасия Мотренко	Любовь Леонтьева	Motrenko2011GrangerForc	Опубл. в JMLDA
Выбор функции активации при прогнозировании нейронными сетями	Георгий Рудой	Николай Балдин	Rudoy2011NNForecasting	Опубл. в JMLDA
Многомерная гусеница, выбор длины и числа компонент гусеницы (пример)	Любовь Леонтьева	Михаил Бурмистров	Leonteva2011GaterpillarLearning	Опубл. в JMLDA
Прогнозирование функциями дискретного аргумента (пример)	Егор Будников	Александр Романенко	Budnikov2011DiscreteForecasting	Опубл. в JMLDA
Исследование сходимости при прогнозировании нейронными сетями с обратной связью	Николай Балдин	Георгий Рудой	Baldin2011FNNForecasting	Опубл. в JMLDA
Выравнивание временных рядов: прогнозирование с использованием DTW	Александр Романенко	Егор Будников	Romanenko2011DTWForecasting	Опубл. в JMLDA
Выделение периодической компоненты временного ряда (пример)	Александра Токмакова	Егор Будников	Tokmakova2011Periodic	Опубл. в JMLDA

Краткое описание задач

Задача 1: Непараметрическое прогнозирование: выбор ядра, настройка параметров

В работе описывается метод ядерного сглаживания временного ряда, как один из видов непараметрической регрессии. Суть метода состоит в восстановлении функции времени, как взвешенной линейной комбинации точек из некоторой окрестности. Непрерывную ограниченную симметричную вещественную весовую функцию называют ядром. Полученная ядерная оценка используется для прогнозирования следующей точки ряда. Исследуется зависимость качества прогнозирования от параметров ядра и наложенного шума.

Задача 2: Экспоненциальное сглаживание и прогноз

В работе исследуется применение алгоритма экспоненциального сглаживания к прогнозированию временных рядов. В основе алгоритма лежит учет предыдущих значений ряда с весами, убывающими по мере удаления от исследуемого участка временного ряда. Изучено поведение алгоритма на модельных данных в различных моделях весов. Проведен анализ работы алгоритма на реальных данных -– биржевых индексах.

Задача 3: Выделение периодической компоненты временного ряда (пример)

В проекте исследуется временной ряд на наличие периодической компоненты, строится тригонометрическая интерполяция предложенных временных рядов методом наименьших квадратов. Производится оценка параметров функции метода наименьших квадратов в зависимости от качества прогнозирования. В вычислительном эксперименте приводятся результаты работы корреляционной функции и метода наименьших квадратов на зашумлённом модельном синусе и реальном временном ряде электрокардиограммы.

Задача 4: Многомерная гусеница, выбор длины и числа компонент гусеницы (сравнение сглаженного и несглаженного временного ряда) (пример)

В работе описывается метод гусеницы и его применение для прогнозирования временных рядов. Алгоритм основан на выделении из изучаемого временного ряда его информативных компонент и последующего построения прогноза. Исследуется зависимость точности прогнозов от выбора длины гусеницы и числа ее компонент. В вычислительном эксперименте приводятся результаты работы алгоритма на периодических рядах с разным рисунком внутри периода, на рядах с нарушением периодичности, а так же на реальных рядах почасовой температуры.

Задача 5: Прогнозирование функциями дискретного аргумента (пример)

В работе исследуются короткие временные ряды на примере монофонических музыкальных мелодий. Происходит прогнозирование одной ноты экспоненциальным сглаживанием, локальным методом, а также методом поиска постоянных закономерностей. Вычислительный эксперимент проводится на двух мелодиях, одна из которых имеет точно повторяющиеся фрагменты.

Задача 7: Локальные методы прогнозирования,поиск метрики

Временной ряд делится на отдельные участки, каждому из которых сопоставляется точка в n-мерном пространстве признаков. Локальная модель рассчитывается в три последовательных этапа. Первый – находит k-ближайших соседей наблюдаемой точки. Второй – строит простую модель, используя только этих k соседей. Третий – используя данную модель, по наблюдаемой точке прогнозирует следующую. Многие исследователи, используют эвклидову метрику для измерения расстояний между точками. Данная работа призвана сравнить точность прогнозирования при использовании различных метрик. В частности, требуется исследовать оптимальный набор весов во взвешенной метрике для максимизации точности прогнозирования.

Задача 8: Локальные методы прогнозирования, поиск инвариантного преобразования

В проекте используются локальные методы прогнозирования временных рядов. В этих методах не находится представления временного ряда в классе заданных функций от времени. Вместо этого прогноз осуществляется на основе данных о каком-то участке временного ряда (используется локальная информация). В данной работе подробно исследован следующий метод (обобщение классического «ближайшего соседа»).

Пусть имеется временной ряд, и стоит задача продолжить его. Предполагается, что такое продолжение определяется предысторией, т.е. в ряде нужно найти часть, которая после некоторого преобразования A становится схожа с той частью, которую мы стремимся прогнозировать. Поиск такого преобразования A и есть цель данного проекта. Для определения степени сходства используется функция B – функция близости двух отрезков временного ряда (подробнее об этом см. здесь). Так мы находим ближайшего соседа к нашей предыстории. В общем случае ищем несколько ближайших соседей. Продолжение запишется в виде их линейной комбинации.

Задача 9: Выравнивание временных рядов: прогнозирование с использованием DTW (пример)

Временным рядом называется последовательность упорядоченных по времени значений некоторой вещественной переменной $\mathbf{x}=\{x_{t}\}_{t=1}^T\in\mathbb{R}^T$ . Задача, сопутствующая появлению временных рядов, - сравнение одной последовательности данных с другой. Сравнение последовательностей существенно упрощается после деформации временного ряда вдоль одной из осей и его выравнивания. Dynamic time warping (DTW) представляет собой технику эффективного выравнивая временных рядов. Методы DTW используются при распознавании речи, при анализе информации в робототехнике, в промышленности, в медицине и других сферах.

Цель работы - привести пример выравнивания, ввести функционал сравнения двух временных рядов, обладающий естественными свойствами коммутативности, рефлексивности и транзитивностина. Функционал должен принимать на вход два временных ряда, а на выходе давать число, характеризующее степень их "похожести".

Задача 10: Выбор функции активации при прогнозировании нейронными сетями

Целью проекта является исследование зависимости качества прогнозирования нейронными сетями без обратной связи (одно- и многослойными перцептронами) от выбранной функции активации нейронов в сети, а также от параметров этой функции.

Результатом проекта является оценка качества прогнозирования нейронными сетями в зависимости от типа и параметров функции активации.

Задача 12: Исследование сходимости при прогнозировании нейронными сетями с обратной связью

Исследуется зависимость скорости сходимости при прогнозировании временных рядов от параметров нейронной сети с обратной связью. Понятие обратной связи характерно для динамических систем, в которых выходной сигнал некоторого элемента cистемы оказывает влияние на входной сигнал этого элемента. Выходной сигнал можно представить в виде бесконечной взвешенной суммы текущего и предыдущих входных сигналов. В качестве модели нейронной сети используется сеть Джордана. Предлагается исследовать скорость сходимости в зависимости от выбора функции активации (сигмоидной, гиперболического тангенса), от числа нейронов в промежуточном слое и от ширины скользящего окна. Также исследуется способ повышения скорости сходимости при использовании обобщенного дельта-правила.

Задача 13: Многомерная гусеница, выбор длины и числа компонент гусеницы (пример)

Работа посвящена исследованию одного из методов анализа многомерных временных рядов - метода "гусеницы", также известного как Singular Spectrum Analysis или SSA. Метод можно разделить на четыре этапа - представление временного ряда в виде матрицы при помощи сдвиговой процедуры, вычисление ковариационной матрицы выборки и сингулярное ее разложение, отбор главных компонент,относящихся к различным составляющим ряда (от медленно меняющихся и периодических до шумовых), и, наконец, восстановление ряда.

Областью применения алгоритма являются задачи как метеорологии и геофизики, так и экономики и медицины. Целью данной работы является выяснение зависимости эффективности алгоритма от выбора временных рядов, используемых в его работе.

Задача 14: Использование теста Гренджера при прогнозировании временных рядов

При прогнозировании ряда бывает полезно определить, является ли данный ряд "зависимым" от некоторого другого ряда. Выявить подобную связь помогает тест Грейнджера, основанный на статистических тестах(при этом метод не гарантирует точного результата - при сравнении двух рядов, зависящих от еще одного ряда возможна ошибка). Метод применяется при прогнозировании экономических явлений и явлений природного характера (например, землятрясений).

Цель работы - предложить алгоритм, наилучшим образом использующий данный метод; исследовать эффективность метода в зависимости от прогнозируемых рядов.

Задача 15: Прогнозирование и аппроксимация сплайнами

Описание.

Задача 16: ARIMA и GARCH при прогнозировании высоковолатильных рядов

Описание.

Задача 17: Прогнозирование и SVN–регрессия

Описание.

Доклады и экзамен (возможны уточнения)

Доклад-1 6 апреля
Контрольная точка 12 мая
Экзамен 19 мая

Список задач, черновик

Непараметрическое прогнозирование (выбор ядра из набора, настройка параметров)
Прогнозирование и экспоненциальное сглаживание (набор временных рядов, исследование современного состояния)
Непараметрическое прогнозирование рядов с периодической составляющей (по мотивам работ прогнозирования объемов продаж)
Многомерная гусеница, выбор длины и числа компонент гусеницы (сравнение сглаженного и несглаженного временного ряда)
Многомерная гусеница, выбор временных рядов при прогнозировании
Многомерная авторегрессия
Локальные методы прогнозирования, поиск метрики
Локальные методы прогнозирования, поиск инвариантного преобразования
Прогнозирование с использованием пути наименьшей стоимости (DTW)
Выбор функции активации при прогнозировании нейронными сетями
Выбор ядра при прогнозировании функциями радиального базиса
Исследование сходимости при прогнозировании нейронными сетями с обратной связью
Прогнозирование функциями дискретного аргумента
Использование теста Гренджера при прогнозировании временных рядов
Прогнозирование и SVN – регрессия
ARIMA и GARCH при прогнозировании высоковолатильных рядов с периодической составляющей (цен на электроэнергию)
Прогнозирование и аппроксимация сплайнами
Изображение:JokeExam486in2011Spring.png|150px|right|frame|Экзамен-шутка: результаты

Источник — «http://www.recognition.su/wiki/index.php?title=%D0%A3%D1%87%D0%B0%D1%81%D1%82%D0%BD%D0%B8%D0%BA:Strijov/Drafts2»

Категория: Учебные курсы