Участник:Vokov/Некоторые задачи интеллектуального анализа данных (лекция)
Материал из MachineLearning.
| Строка 1: | Строка 1: | ||
{{TOCright}}  | {{TOCright}}  | ||
| - | Лекция   | + | Лекция в рамках курса '''«Современные проблемы прикладной математики»''' студентам {{S|5 курса ВМиК МГУ}}.   | 
{{S|28 апреля 2008 года.}}   | {{S|28 апреля 2008 года.}}   | ||
| Строка 24: | Строка 24: | ||
Дискретно-логические методы классификации.  | Дискретно-логические методы классификации.  | ||
| - | + | Требования интерпретируемости, информативности и покрытия.   | |
| - | + | ||
Критерии закономерности и неслучайности.  | Критерии закономерности и неслучайности.  | ||
| - | Методы поиска логических закономерностей (rule induction).   | + | Методы поиска логических закономерностей в форме конъюнкций (rule induction).   | 
Локальный поиск, случайный поиск с адаптацией, генетические алгоритмы.   | Локальный поиск, случайный поиск с адаптацией, генетические алгоритмы.   | ||
| - | + | Поиск закономерностей в сверхбольших данных. Самплинг (sampling).  | |
| - | + | ||
| - | + | Оценивание вероятности (probabilistic output, probabilistic calibration) и риска.   | |
| - | + | Контрольная выборка, нечеткие правила.  | |
| - | + | ||
'''Ссылки:'''  | '''Ссылки:'''  | ||
| - | #  | + | # ''J. Platt'' [http://citeseer.ist.psu.edu/platt99probabilistic.html Probabilistic Outputs for Support Vector Machines and Comparisons to Regularized Likelihood Methods].  Advances in Large Margin Classiers, MIT Press, 1999.  | 
| + | |||
| + | <!--  | ||
| + | Схожая задача: анализ рыночных корзин (market basket analysis).   | ||
| + | Методы поиска ассоциативных правил (association rule induction).  | ||
| + | -->  | ||
=== Прогнозирование временных рядов ===  | === Прогнозирование временных рядов ===  | ||
| Строка 50: | Строка 52: | ||
Проблема 2: как прогнозировать, если функционал потерь неквадратичен, несимметричен?  | Проблема 2: как прогнозировать, если функционал потерь неквадратичен, несимметричен?  | ||
| + | |||
| + | Прогнозирование плотности распределения (density forecast).   | ||
'''Ссылки:'''  | '''Ссылки:'''  | ||
| - | #  | + | # ''Yong Bao, Tae-Hwy Lee, Burak Saltoğlu'' [http://www.faculty.ucr.edu/~taelee/paper/BaoLeeSaltoglu_KLIC.pdf Comparing Density Forecast Models], 2006.  | 
| + | # ''Stephen G. Hall, James Mitchell'' [http://www.niesr.ac.uk/pubs/dps/dp249.pdf Density Forecast Combination]. 2004.  | ||
=== Анализ клиентских сред ===   | === Анализ клиентских сред ===   | ||
| Строка 69: | Строка 74: | ||
'''Ссылки:'''  | '''Ссылки:'''  | ||
# [http://www.netflixprize.com/leaderboard Лидеры конкурса Netflix]  | # [http://www.netflixprize.com/leaderboard Лидеры конкурса Netflix]  | ||
| + | # [http://ict.ewi.tudelft.nl/~jun/CollaborativeFiltering.html Collaborative Filtering Resources] — софт, данные, статьи по CF.  | ||
=== Анализ текстов ===  | === Анализ текстов ===  | ||
| Строка 84: | Строка 90: | ||
== Темы рефератов ==   | == Темы рефератов ==   | ||
{{tip|  | {{tip|  | ||
| - | Рефераты подаются на [[Математические методы прогнозирования (кафедра ВМиК МГУ)|кафедру ММП]] в бумажном виде и '''присылаются [[Участник:Vokov|лектору]] в электронном виде для проверки в системе [[Антиплагиат]]'''.  | + | Рефераты подаются на [[Математические методы прогнозирования (кафедра ВМиК МГУ)|кафедру ММП]] в бумажном виде<br/>и '''присылаются [[Участник:Vokov|лектору]] в электронном виде для проверки в системе [[Антиплагиат]]'''.  | 
}}  | }}  | ||
| - | #   | + | # Методы классификации, применяемые для предсказания ухода клиентов (churn prediction).  | 
| - | # Оценивание вероятностей классов в логических алгоритмах классификации.  | + | #* Логистическая регрессия, решающие деревья, нейронные сети... что ещё? что лучше и почему?  | 
| - | # Обзор методов, применяемых для прогнозирования объёмов продаж.  | + | #* Для чего и как используются оценки вероятности ухода?  | 
| + | #* Как планируются маркетинговые акции на основе сделанных предсказаний?  | ||
| + | # Оценивание вероятностей классов в логических алгоритмах классификации (probabilistic output, probabilistic calibration).  | ||
| + | #* Оценивание для SVM, логистической регрессии и прочих не-логических методов не предлагать!  | ||
| + | #* Логит-анализ, пробит-анализ... что ещё?  | ||
| + | #* Используется ли непараметрическое оценивание (сглаживание, kernel smoothing)?  | ||
| + | # Обзор методов, применяемых для прогнозирования объёмов продаж (sales forecast).  | ||
| + | #* Нейросеть не предлагать!  | ||
| + | #* Обзор методов, дающих прогнозы в виде плотности распределения возможных значений (density forecast).  | ||
| + | #* Как учитываются взаимозависимости товаров при прогнозировании?  | ||
# Внешние факторы, учитываемые при прогнозировании цен и объемов потребления электроэнергии.  | # Внешние факторы, учитываемые при прогнозировании цен и объемов потребления электроэнергии.  | ||
| + | #* Погода и её прогноз, фьючерсы, что ещё?  | ||
# Обзор методов коллаборативной фильтрации, применяемых лучшими участниками конкурса Netflix.   | # Обзор методов коллаборативной фильтрации, применяемых лучшими участниками конкурса Netflix.   | ||
| + | #* Метод главных компонент, что ещё?  | ||
# Обзор методов, применяемых для поиска заимствований.  | # Обзор методов, применяемых для поиска заимствований.  | ||
# Обзор методов, применяемых для оценивания сходства (релевантности) текстов.  | # Обзор методов, применяемых для оценивания сходства (релевантности) текстов.  | ||
| + | |||
| + | {{stop|  | ||
| + | '''Не принимаются рефераты''', написанные по материалам сайтов  | ||
| + | [http://www.forecsys.ru www.forecsys.ru],   | ||
| + | [http://www.MachineLearning.ru www.MachineLearning.ru],   | ||
| + | [http://www.ccas.ru/voron домашняя страница лектора]  | ||
| + | }}  | ||
Версия 00:16, 27 апреля 2008
 
  | 
Лекция в рамках курса «Современные проблемы прикладной математики» студентам 5 курса ВМиК МГУ. 28 апреля 2008 года.
Файл презентации
План-конспект лекции
Задачи обучения по прецедентам
Общая постановка, основные понятия: объекты, признаки, выборка, алгоритм обучения.
Типы задач: классификация, регрессия, прогнозирование.
Свойства реальных данных: многомерность, разнородность, неполнота, неточность, противоречивость, огромный объём.
Задачи и методы классификации
Примеры прикладных задач: медицинская диагностика, кредитный скоринг (credit scoring), предсказание ухода клиентов (churn prediction).
Методы классификации (минутный обзор).
Дискретно-логические методы классификации. Требования интерпретируемости, информативности и покрытия. Критерии закономерности и неслучайности.
Методы поиска логических закономерностей в форме конъюнкций (rule induction). Локальный поиск, случайный поиск с адаптацией, генетические алгоритмы.
Поиск закономерностей в сверхбольших данных. Самплинг (sampling).
Оценивание вероятности (probabilistic output, probabilistic calibration) и риска. Контрольная выборка, нечеткие правила.
Ссылки:
- J. Platt Probabilistic Outputs for Support Vector Machines and Comparisons to Regularized Likelihood Methods. Advances in Large Margin Classiers, MIT Press, 1999.
 
Прогнозирование временных рядов
Примеры прикладных задач: прогнозирование цен и объемов потребления электроэнергии; прогнозирование спроса на товары в супермаркетах (sales forecast).
Проблема 1: как прогнозировать каждый день объёмы продаж 40 тысяч товаров в 200 магазинах, не покупая суперкомпьютер?
Проблема 2: как прогнозировать, если функционал потерь неквадратичен, несимметричен?
Прогнозирование плотности распределения (density forecast).
Ссылки:
- Yong Bao, Tae-Hwy Lee, Burak Saltoğlu Comparing Density Forecast Models, 2006.
 - Stephen G. Hall, James Mitchell Density Forecast Combination. 2004.
 
Анализ клиентских сред
Примеры прикладных задач: персонализация предложения в интернет-магазинах, видеопрокате, электронных библиотеках. Задача Netflix.
Постановка задачи коллаборативной фильтрации (collaborative filtering, CF). Матрица users–items.
Методы коллаборативной фильтрации. Анализ пользователей (user-based CF). Анализ айтемов (item-based CF). Байесовские генеративные модели и восстановление скрытых интересов пользователей.
Ссылки:
- Лидеры конкурса Netflix
 - Collaborative Filtering Resources — софт, данные, статьи по CF.
 
Анализ текстов
Пример задачи: обнаружение заимствований (плагиата). Система Антиплагиат.
Постановки задач распознавания при обнаружении заимствований: различение плагиата и цитирования.
Ссылки:
- www.antiplagiat.ru
 - Патент iParadigms
 - Интернет-математика отчёты по конкурсам Яндекс.
 
Темы рефератов
|   |  Рефераты подаются на кафедру ММП в бумажном виде и присылаются лектору в электронном виде для проверки в системе Антиплагиат.  | 
-  Методы классификации, применяемые для предсказания ухода клиентов (churn prediction).
- Логистическая регрессия, решающие деревья, нейронные сети... что ещё? что лучше и почему?
 - Для чего и как используются оценки вероятности ухода?
 - Как планируются маркетинговые акции на основе сделанных предсказаний?
 
 -  Оценивание вероятностей классов в логических алгоритмах классификации (probabilistic output, probabilistic calibration).
- Оценивание для SVM, логистической регрессии и прочих не-логических методов не предлагать!
 - Логит-анализ, пробит-анализ... что ещё?
 - Используется ли непараметрическое оценивание (сглаживание, kernel smoothing)?
 
 -  Обзор методов, применяемых для прогнозирования объёмов продаж (sales forecast).
- Нейросеть не предлагать!
 - Обзор методов, дающих прогнозы в виде плотности распределения возможных значений (density forecast).
 - Как учитываются взаимозависимости товаров при прогнозировании?
 
 -  Внешние факторы, учитываемые при прогнозировании цен и объемов потребления электроэнергии.
- Погода и её прогноз, фьючерсы, что ещё?
 
 -  Обзор методов коллаборативной фильтрации, применяемых лучшими участниками конкурса Netflix. 
- Метод главных компонент, что ещё?
 
 - Обзор методов, применяемых для поиска заимствований.
 - Обзор методов, применяемых для оценивания сходства (релевантности) текстов.
 
|   |  Не принимаются рефераты, написанные по материалам сайтов
 www.forecsys.ru, www.MachineLearning.ru, домашняя страница лектора  | 

