Участник:Vokov/Некоторые задачи интеллектуального анализа данных (лекция)
Материал из MachineLearning.
м   | 
			|||
| (6 промежуточных версий не показаны.) | |||
| Строка 1: | Строка 1: | ||
{{TOCright}}  | {{TOCright}}  | ||
| - | Лекция в рамках курса '''«Современные проблемы прикладной математики»''' студентам {{S|5 курса ВМиК МГУ}}  | + | Лекция прочитана в рамках курса '''«Современные проблемы прикладной математики»'''  | 
| - | {{S|28 апреля 2008 года.}}   | + | студентам {{S|5 курса ВМиК МГУ}}, {{S|28 апреля 2008 года.}}   | 
'''[[Media:VokovLectureMMP-2008.pdf|Файл презентации, 764 КБ]]'''  | '''[[Media:VokovLectureMMP-2008.pdf|Файл презентации, 764 КБ]]'''  | ||
| Строка 91: | Строка 91: | ||
== Темы рефератов ==   | == Темы рефератов ==   | ||
{{tip|  | {{tip|  | ||
| - | Рефераты   | + | Рефераты должны носить обзорный характер, в основном по материалам в Интернете. Допустимый объём реферата — от 5 до 500 страниц. Цениться будет полезность и небанальность собранной и представленной информации. Рекомендуемые сайты для поиска (ключевые слова для поиска приведены на этой странице и в тексте презентации):   | 
* [http://www.google.ru Google]  | * [http://www.google.ru Google]  | ||
* [http://citeseer.ist.psu.edu CiteSeer]  | * [http://citeseer.ist.psu.edu CiteSeer]  | ||
| - | Рефераты подаются на [[Математические методы прогнозирования (кафедра ВМиК МГУ)|кафедру ММП]] в бумажном виде и '''  | + | Рефераты подаются на [[Математические методы прогнозирования (кафедра ВМиК МГУ)|кафедру ММП]] в бумажном виде и '''[mailto:vokov@forecsys.ru присылаются лектору] в электронном виде для проверки в системе [[Антиплагиат]]'''.   | 
| + | {{S|В теме}} письма укажите: <code>Реферат ВМиК: Фамилия, группа, тема реферата</code>.  | ||
| + | |||
| + | '''Не принимаются рефераты''', написанные по материалам наших сайтов:  | ||
* [http://www.forecsys.ru Форексис],   | * [http://www.forecsys.ru Форексис],   | ||
* [http://www.MachineLearning.ru www.MachineLearning.ru],   | * [http://www.MachineLearning.ru www.MachineLearning.ru],   | ||
| + | * [http://www.antiplagiat.ru Антиплагиат.Ру],   | ||
* [http://www.ccas.ru/voron домашняя страница лектора]  | * [http://www.ccas.ru/voron домашняя страница лектора]  | ||
| + | |||
| + | '''Пожалуйста, не забывайте в конце привести список использованных источников: статей, сайтов, и т.д.'''  | ||
}}  | }}  | ||
# Методы классификации, применяемые для предсказания ухода клиентов (churn prediction).  | # Методы классификации, применяемые для предсказания ухода клиентов (churn prediction).  | ||
| Строка 133: | Строка 139: | ||
Зачёт можно получить на кафедре ММП двумя способами:   | Зачёт можно получить на кафедре ММП двумя способами:   | ||
* Либо у меня во вторник 6 и 13 мая, непосредственно до и после 3й пары.   | * Либо у меня во вторник 6 и 13 мая, непосредственно до и после 3й пары.   | ||
| - | * Либо у учёного секретаря Дьяконова Александра Геннадьевича, почти в любое время (информация о хороших рефератах передаётся ему по тайным каналам).   | + | * Либо у учёного секретаря кафедры Дьяконова Александра Геннадьевича, почти в любое время (информация о хороших рефератах передаётся ему по тайным каналам).   | 
}}  | }}  | ||
| + | |||
| + | '''[[Служебная:EmailUser/Vokov|Задать вопрос лектору]]'''.  | ||
Текущая версия
 
  | 
Лекция прочитана в рамках курса «Современные проблемы прикладной математики» студентам 5 курса ВМиК МГУ, 28 апреля 2008 года.
План-конспект лекции
Задачи обучения по прецедентам
Общая постановка, основные понятия: объекты, признаки, выборка, алгоритм обучения.
Типы задач: классификация, регрессия, прогнозирование.
Свойства реальных данных: многомерность, разнородность, неполнота, неточность, противоречивость, огромный объём.
Задачи и методы классификации
Примеры прикладных задач: медицинская диагностика, кредитный скоринг (credit scoring), предсказание ухода клиентов (churn prediction).
Методы классификации (минутный обзор).
Логические методы классификации. Требования интерпретируемости, информативности и покрытия. Критерии закономерности и неслучайности.
Методы поиска логических закономерностей в форме конъюнкций (rule induction). Локальный поиск, случайный поиск с адаптацией, генетические алгоритмы.
Поиск закономерностей в сверхбольших данных. Самплинг (sampling).
Оценивание вероятности (probabilistic output, probabilistic calibration) и риска. Контрольная выборка, нечеткие правила.
Ссылки:
- J. Platt Probabilistic Outputs for Support Vector Machines and Comparisons to Regularized Likelihood Methods. Advances in Large Margin Classiers, MIT Press, 1999.
 
Схожая задача: анализ рыночных корзин (market basket analysis). Методы поиска ассоциативных правил (association rule induction).
Ссылки:
- Toivonen H. Sampling large databases for association rules // In Proc. 1996 Int. Conf. Very Large Data Bases / Ed. by T. M. Vijayaraman, A. P. Buchmann, C. Mohan, N. L. Sarda. — Morgan Kaufman, 1996. — Pp. 134–145.
 
Прогнозирование временных рядов
Примеры прикладных задач: прогнозирование цен и объемов потребления электроэнергии; прогнозирование спроса на товары в супермаркетах (sales forecast).
Проблема 1: как прогнозировать каждый день объёмы продаж 40 тысяч товаров в 200 магазинах, не покупая суперкомпьютер?
Проблема 2: как прогнозировать, если функционал потерь неквадратичен, несимметричен?
Прогнозирование плотности распределения (density forecast).
Ссылки:
- Yong Bao, Tae-Hwy Lee, Burak Saltoğlu Comparing Density Forecast Models, 2006.
 - Stephen G. Hall, James Mitchell Density Forecast Combination. 2004.
 
Анализ клиентских сред
Примеры прикладных задач: персонализация предложения в интернет-магазинах, видеопрокате, электронных библиотеках. Задача Netflix.
Постановка задачи коллаборативной фильтрации (collaborative filtering, CF). Матрица users–items.
Методы коллаборативной фильтрации. Анализ пользователей (user-based CF). Анализ айтемов (item-based CF). Байесовские генеративные модели и восстановление скрытых интересов пользователей.
Ссылки:
- Лидеры конкурса Netflix
 - Collaborative Filtering Resources — софт, данные, статьи по CF.
 
Анализ текстов
Пример задачи: обнаружение заимствований (плагиата). Система Антиплагиат.
Постановки задач распознавания при обнаружении заимствований: различение плагиата и цитирования.
Ссылки:
- www.antiplagiat.ru
 - Патент iParadigms
 - Интернет-математика отчёты по конкурсам Яндекс.
 
Темы рефератов
|   |  Рефераты должны носить обзорный характер, в основном по материалам в Интернете. Допустимый объём реферата — от 5 до 500 страниц. Цениться будет полезность и небанальность собранной и представленной информации. Рекомендуемые сайты для поиска (ключевые слова для поиска приведены на этой странице и в тексте презентации):
 Рефераты подаются на кафедру ММП в бумажном виде и присылаются лектору в электронном виде для проверки в системе Антиплагиат. 
В теме письма укажите:  Не принимаются рефераты, написанные по материалам наших сайтов: Пожалуйста, не забывайте в конце привести список использованных источников: статей, сайтов, и т.д.  | 
-  Методы классификации, применяемые для предсказания ухода клиентов (churn prediction).
- Логистическая регрессия, решающие деревья, нейронные сети... что ещё? что лучше и почему?
 - Для чего и как используются оценки вероятности ухода?
 - Как планируются маркетинговые акции на основе сделанных предсказаний?
 
 -  Применение мета-обучения для выбора оптимальных эвристик в методах индукции правил.
-  Что ещё можно мета-обучать? 
- Параметры поисковых процедур: ширина поиска, количество поколений, критерии останова, темп адаптации, и т.п.
 - Способ построения покрытия (используется ли жадный алгоритм или перевзвешивание объектов? Если второе, то функцию весов объектов логично подбирать мета-обучением. Есть ли работы в этом направлении?
 
 
 -  Что ещё можно мета-обучать? 
 -  Методы индукции правил на сверхбольших выборках
- Как работать со сверх-большими выборками — есть ли ещё идеи кроме самплинга?
 - Делают ли самплинг по двум, трём и т.д. подвыборкам?
 - Тойвонен применял самплинг для поиска ассоциативных правил. Это очень похоже но конъюнктивные правила, но немного не то. Найдите работы, посвящённые самплингу именно для правил.
 
 -  Оценивание апостериорных вероятностей классов в логических алгоритмах классификации (probabilistic output, probabilistic calibration).
- Оценивание для SVM, логистической регрессии и прочих не-логических методов не предлагать!
 - Логит-анализ, пробит-анализ... что ещё?
 - Используется ли непараметрическое оценивание (сглаживание, kernel smoothing)?
 
 -  Обзор методов, применяемых для прогнозирования объёмов продаж (sales forecast).
- Нейросеть не предлагать!
 - Обзор методов, дающих прогнозы в виде плотности распределения возможных значений (density forecast).
 - Как учитываются взаимозависимости товаров при прогнозировании?
 
 -  Внешние факторы, учитываемые при прогнозировании цен и объемов потребления электроэнергии.
- Погода и её прогноз, фьючерсы, что ещё?
 
 -  Обзор методов коллаборативной фильтрации, применяемых лучшими участниками конкурса Netflix. 
- Метод главных компонент, что ещё?
 
 -  Обзор методов коллаборативной фильтрации, использующих восстановление скрытой информации.
- Ключевые слова: generative model for collaborative filtering, latent class models for collaborative filtering.
 - Предупреждение: скрытая информация не обязательно называется «тематическими профилями»
 
 - Обзор методов, применяемых для поиска заимствований.
 - Обзор методов, применяемых для оценивания сходства (релевантности) текстов.
 

