Участник:Vokov/Некоторые задачи интеллектуального анализа данных (лекция)
Материал из MachineLearning.
 (Новая: {{TOCright}} Лекция прочитана в рамках курса '''«Современные проблемы прикладной математики»''' студентам 5 ...)  | 
				м   | 
			||
| Строка 1: | Строка 1: | ||
{{TOCright}}  | {{TOCright}}  | ||
| - | Лекция   | + | Лекция читается в рамках курса '''«Современные проблемы прикладной математики»''' студентам {{S|5 курса ВМиК МГУ}}.   | 
| + | {{S|28 апреля 2008 года.}}   | ||
== План-конспект лекции ==  | == План-конспект лекции ==  | ||
| Строка 21: | Строка 22: | ||
Дискретно-логические методы классификации.  | Дискретно-логические методы классификации.  | ||
Понятие закономерности.  | Понятие закономерности.  | ||
| - | Требование интерпретируемости,   | + | Требование интерпретируемости, конъюнктивные закономерности.   | 
Критерии закономерности и неслучайности.  | Критерии закономерности и неслучайности.  | ||
| Строка 33: | Строка 34: | ||
Проблема 2: как оценивать вероятности и риски? Контрольная выборка, нечеткие правила.  | Проблема 2: как оценивать вероятности и риски? Контрольная выборка, нечеткие правила.  | ||
| + | |||
| + | '''Ссылки:'''  | ||
| + | #  | ||
=== Прогнозирование временных рядов ===  | === Прогнозирование временных рядов ===  | ||
| Строка 43: | Строка 47: | ||
Проблема 2: как прогнозировать, если функционал потерь неквадратичен, несимметричен?  | Проблема 2: как прогнозировать, если функционал потерь неквадратичен, несимметричен?  | ||
| + | |||
| + | '''Ссылки:'''  | ||
| + | #  | ||
=== Анализ клиентских сред ===   | === Анализ клиентских сред ===   | ||
| Строка 56: | Строка 63: | ||
Анализ айтемов (item-based CF).  | Анализ айтемов (item-based CF).  | ||
Байесовские генеративные модели и восстановление скрытых интересов пользователей.   | Байесовские генеративные модели и восстановление скрытых интересов пользователей.   | ||
| + | |||
| + | '''Ссылки:'''  | ||
| + | # [http://www.netflixprize.com/leaderboard Лидеры конкурса Netflix]  | ||
=== Анализ текстов ===  | === Анализ текстов ===  | ||
| Строка 63: | Строка 73: | ||
Постановки задач распознавания при обнаружении заимствований:  | Постановки задач распознавания при обнаружении заимствований:  | ||
различение плагиата и цитирования.  | различение плагиата и цитирования.  | ||
| + | |||
| + | '''Ссылки:'''  | ||
| + | #  | ||
== Темы рефератов и литература ==   | == Темы рефератов и литература ==   | ||
| - | |||
| - | |||
# Обзор методов классификации, применяемых для решения задачи предсказания ухода клиентов.  | # Обзор методов классификации, применяемых для решения задачи предсказания ухода клиентов.  | ||
| Строка 74: | Строка 85: | ||
# Обзор методов, применяемых для поиска заимствований.   | # Обзор методов, применяемых для поиска заимствований.   | ||
| - | + | Рефераты подаются на [[Математические методы прогнозирования (кафедра ВМиК МГУ)|кафедру ММП]] в бумажном виде '''и присылаются [[Участник:Vokov|лектору]] в электронном виде для проверки в системе [[Антиплагиат]]'''.  | |
| - | + | ||
| - | + | ||
Версия 09:48, 25 апреля 2008
 
  | 
Лекция читается в рамках курса «Современные проблемы прикладной математики» студентам 5 курса ВМиК МГУ. 28 апреля 2008 года.
План-конспект лекции
Задачи обучения по прецедентам
Общая постановка, основные понятия: объекты, признаки, выборка, алгоритм обучения.
Типы задач: классификация, регрессия, прогнозирование.
Свойства реальных данных: многомерные, неполные, неточные, противоречивые, разнородные.
Задачи и методы классификации
Примеры прикладных задач: медицинская диагностика, кредитный скоринг (credit scoring), предсказание ухода клиентов (churn prediction).
Методы классификации (минутный обзор).
Дискретно-логические методы классификации. Понятие закономерности. Требование интерпретируемости, конъюнктивные закономерности. Критерии закономерности и неслучайности.
Методы поиска логических закономерностей (rule induction). Локальный поиск, случайный поиск с адаптацией, генетические алгоритмы.
Схожая задача: анализ рыночных корзин. Методы поиска ассоциативных правил.
Проблема 1: как искать закономерности в сверхбольших данных? Самплинг.
Проблема 2: как оценивать вероятности и риски? Контрольная выборка, нечеткие правила.
Ссылки:
Прогнозирование временных рядов
Примеры прикладных задач: прогнозирование цен и объемов потребления электроэнергии; прогнозирование спроса на товары в супермаркетах (sales forecast).
Проблема 1: как прогнозировать каждый день объёмы продаж 40 тысяч товаров в 200 магазинах, не покупая суперкомпьютер?
Проблема 2: как прогнозировать, если функционал потерь неквадратичен, несимметричен?
Ссылки:
Анализ клиентских сред
Примеры прикладных задач: персонализация предложения в интернет-магазинах, видеопрокате, электронных библиотеках. Задача Netflix.
Постановка задачи коллаборативной фильтрации (collaborative filtering, CF). Матрица users–items.
Методы коллаборативной фильтрации. Анализ пользователей (user-based CF). Анализ айтемов (item-based CF). Байесовские генеративные модели и восстановление скрытых интересов пользователей.
Ссылки:
Анализ текстов
Пример задачи: обнаружение заимствований (плагиата). Система Антиплагиат.
Постановки задач распознавания при обнаружении заимствований: различение плагиата и цитирования.
Ссылки:
Темы рефератов и литература
- Обзор методов классификации, применяемых для решения задачи предсказания ухода клиентов.
 - Оценивание вероятностей классов в логических алгоритмах классификации.
 - Обзор методов, применяемых для прогнозирования объёмов продаж.
 - Обзор методов коллаборативной фильтрации, применяемых лучшими участниками конкурса Netflix.
 - Обзор методов, применяемых для поиска заимствований.
 
Рефераты подаются на кафедру ММП в бумажном виде и присылаются лектору в электронном виде для проверки в системе Антиплагиат.

