Спецкурс «Прикладные задачи анализа данных»
Материал из MachineLearning.
 (→Лекции)  | 
				|||
| Строка 13: | Строка 13: | ||
}}  | }}  | ||
{{tip|  | {{tip|  | ||
| - | '''  | + | }}  | 
| + | |||
| + | == Аннотация ==  | ||
| + | {{notice|  | ||
| + | Данный курс стал победителем конкурса [http://ria.ru/society/20140422/1004993769.html инновационных учебных технологий].  | ||
| + | }}  | ||
| + | |||
| + | Лектор: [[Участник:Dj|Дьяконов Александр]]  | ||
| + | |||
| + | Основная цель: практика решения современных задач классификации, прогнозирования, регрессии, рекомендации и т.п., подготовка участников к соревнованиям на платформах Kaggle и Algomost.  | ||
| + | |||
| + | Мероприятие проходит в двух режимах:  | ||
| + | * спецкурса – лекции о решении прикладных задач, обучение некоторым системам анализа данных (например R, Matlab, Python+ и т.п.  | ||
| + | * спецсеминара – обсуждение решаемых задач, выработка общих стратегий, разделение работы в рамках участия в соревновании одной командой, мозговой штурм и т.п.  | ||
| + | Важно: от участников потребуется выполнение нетривиальных практических заданий!  | ||
| + | |||
| + | == Выпускники ПЗАДа, известные в спортивном анализе данных ==  | ||
| + | {| class="wikitable"  | ||
| + | |-  | ||
| + | ! 2013  | ||
| + | ! 2014  | ||
| + | ! 2015  | ||
| + | |-  | ||
| + | | Трофимов Михаил<br>Рыжков Александр<br>Софиюк Константин<br>Фонарев Александр<br>Харациди Олег<br>  | ||
| + | | Гущин Александр<br>Семёнов Станислав<br>Фенстер Александра<br>Ульянов Дмитрий<br>Сиверский Михаил<br>Шапулин Андрей<br>Нижибицкий Евгений<br>Остапец Андрей<br>  | ||
| + | | ''это место вакантно''  | ||
| + | |}  | ||
| + | |||
| + | == Правила ==  | ||
| + | |||
| + | * Рассылки материалов делаются только зарегистрированным слушателям курса (перечислены в таблице слушателей).  | ||
| + | * Слушатели, которые перестают делать домашние задания, удаляются из таблицы.  | ||
| + | * За каждое задание можно было получить от 0 до 10 штрафных баллов. 10 штрафных баллов понижают итоговую оценку на один балл.  | ||
| + | * Для аспирантов и студентов ВМК: важно вовремя делать задания (опоздания штрафуются); экзамена, как такового, не будет; штрафы могут быть исправлены только качественным выполнением последующих заданий  | ||
| + | |||
| + | ''Таблица появится после завершения регистрации''  | ||
| + | |||
| + | ==Лекции==  | ||
| + | |||
| + | Здесь будет выложена программа нового (2015 года) - по мере чтения курса.  | ||
| + | |||
| + | Старые программы см. на страницах прошлых лет.  | ||
| + | |||
| + | {| class="wikitable"  | ||
| + | |-  | ||
| + | ! Число  | ||
| + | ! Лекция  | ||
| + | ! Материалы, замечания  | ||
| + | |-  | ||
| + | | 16.09.14  | ||
| + | | '''Вводное занятие''': цели курса, материалы, правила, участие в соревнованиях.  | ||
| + | '''Разбор конкурсных задач''': решение задачи [[https://www.kaggle.com/c/crowdflower-search-relevance Search Results Relevance]]  | ||
| + | (классическая и неклассическая задачи поиска, сравнение блоков информации, 3-граммы, настройка случайного леса, деформация ответов и решающие правила,  | ||
| + | выравнивание распределений ответов).  | ||
| + | |||
| + | '''Домашнее задание №1''': решение задачи [[https://inclass.kaggle.com/c/msuvisits MSUvisits]]  | ||
| + | (прогноз дня недели следующего визита клиента).  | ||
| + | | слайды в рассылке  | ||
| + | |}  | ||
| + | |||
| + | == Отчётность ==  | ||
| + | * отчёты по решению конкурсных задач (доклады с презентацией + исходники)  | ||
| + | * зачёт с оценкой в конце семестра  | ||
| + | |||
| + | == Страницы курсов прошлых лет ==  | ||
| + | |||
| + | [[Спецкурс «Прикладные задачи анализа данных» (2013 год)]]  | ||
| + | |||
| + | [[Спецкурс «Прикладные задачи анализа данных» (2014 год)]]  | ||
| + | |||
| + | == Ссылки ==  | ||
| + | |||
| + | # Книга [http://www.mmds.org/ Jure Leskovec, Anand Rajaraman, Jeff Ullman Mining of Massive Datasets] * Неплохая книга на английском языке с обзором основных задач и методов в анализе данных (уровень сложности - средний).  | ||
| + | # Книга [http://www.amazon.com/Beautiful-Visualization-Looking-through-Practice/dp/1449379869 Beautiful Visualization: Looking at Data through the Eyes of Experts (Theory in Practice)] по визуализации данных  | ||
| + | # Книга [http://www.ozon.ru/context/detail/id/4526400/ Шурыгин А.М. Математические методы прогнозирования] * Неплохие идеи для решения некоторых практических задач статистики (но в целом, специфична)  | ||
| + | # Статья [http://bijournal.hse.ru/2014--1%20%2827%29/120486363.html Прогноз поведения клиентов супермаркетов с помощью весовых схем оценок вероятностей и плотностей].  | ||
| + | # Книга [http://lib.mexmat.ru/books/9210 Ту Дж., Гонсалес Р. Принципы распознавания образов] * Уже чуть устаревшая книга. Но полистать стоит! Первая «энциклопедия по методам классификации».  | ||
| + | # [http://alexanderdyakonov.narod.ru/uptimes.pdf Прогнозирование рядов соревнования «Tourism Forecasting Part Two»] (414Кб) * Подробное описание некоторых простых алгоритмов для прогнозирования туристических временных рядов.  | ||
| + | # Статья [http://www.springerlink.com/content/73g4kl50m6112420/ A Blending of Simple Algorithms for Topical Classification] * Описание метода классификации текстов. Содержание рассказывалось на лекции.  | ||
| + | # Книга [http://www.ozon.ru/context/detail/id/5497130/ К.Д. Маннинг, П. Рагхаван, Х. Шютце «Введение в информационный поиск»] * Простая, но хорошая книга по основам работы с текстом (прочитать обязательно).  | ||
| + | # Статья [http://bijournal.hse.ru/2012--1%2819%29/53535879.html Алгоритмы для рекомендательной системы: технология LENCOR].  | ||
| + | # Книга [http://alexanderdyakonov.narod.ru/intro2datamining.pdf Научно-популярная лекция «Введение в анализ данных» (PDF, 1.4 Мб)] * Вводная лекция, которая написана для [[Математические методы прогнозирования (кафедра ВМиК МГУ)/Просеминар|просеминара]].  | ||
| + | # [[Публикация:Дьяконов 2010 Учебное пособие ММП| Анализ данных, обучение по прецедентам, логические игры, системы WEKA, RapidMiner и MatLab (практикум на ЭВМ кафедры математических методов прогнозирования)]] * Глава 12 «Шаманство в анализе данных».  | ||
| + | # [http://alexanderdyakonov.narod.ru/lpotdyakonov.pdf Научно-популярная лекция «Шаманство в анализе данных»] (1.21Мб) * Переработка предыдущего источника в научно-популярную лекцию.  | ||
| + | # [http://alexanderdyakonov.narod.ru/lpot4emu.pdf  Научно-популярная лекция «Чему не учат в анализе данных и машинном обучении»] * Рассказываются тонкости решения задач, которые умалчиваются в основных курсах.  | ||
| + | |||
| + | == Аналогичные курсы ==  | ||
| + | # [http://cs109.github.io/2014/ Data Science] * Аналогичный (по духу) гарвардский курс  | ||
| + | # Страница спецсеминара [[Алгебра над алгоритмами и эвристический поиск закономерностей|«Алгебра над алгоритмами и эвристический поиск закономерностей»]] * Приведены ссылки на сайты с данными реальных задач анализа данных.  | ||
| + | |||
| + | == Ещё ссылки ==  | ||
| + | * [http://prezi.com/8fbsaa7mushs/using-r-for-data-mining-competitions/ Использование системы R в анализе данных]  | ||
| + | |||
| + | Неплохая короткая демка про соревнования в анализе данных, платформы для соревнований и возможности системы R.  | ||
| + | |||
| + | == РАНЕЕ ДОВОДИМАЯ ИНФОРМАЦИЯ ==  | ||
В сентябре 2015 года будет объявлен новый набор слушателей спецкурса.  | В сентябре 2015 года будет объявлен новый набор слушателей спецкурса.  | ||
| Строка 121: | Строка 216: | ||
* Roman Khalkechev (I want to PZAD) формальное участие  | * Roman Khalkechev (I want to PZAD) формальное участие  | ||
* kittens_gonna_kitt (I want to PZAD) формальное участие  | * kittens_gonna_kitt (I want to PZAD) формальное участие  | ||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
| - | |||
Версия 13:04, 18 сентября 2015
|   |  Потенциальные участники, прочитайте результаты отбора и присылайте письмо.
 Письмо - это Ваша регистрация. Вся остальная информация - в почтовой рассылке. Общие вопросы можно задавать в комментариях к посту. Сделана рассылка №0 всем зарегистрированным участникам. Сделана рассылка №1 всем зарегистрированным участникам (указана аудитория и время начала). Аспиранты, которые ранее вписали курс в учебный план, также обязаны зарегистрироваться. Кроме того, аспиранты, которые не проходили отбор, получат дополнительное задание.  | 
|   | 
Содержание | 
Аннотация
|   | Данный курс стал победителем конкурса инновационных учебных технологий. | 
Лектор: Дьяконов Александр
Основная цель: практика решения современных задач классификации, прогнозирования, регрессии, рекомендации и т.п., подготовка участников к соревнованиям на платформах Kaggle и Algomost.
Мероприятие проходит в двух режимах:
- спецкурса – лекции о решении прикладных задач, обучение некоторым системам анализа данных (например R, Matlab, Python+ и т.п.
 - спецсеминара – обсуждение решаемых задач, выработка общих стратегий, разделение работы в рамках участия в соревновании одной командой, мозговой штурм и т.п.
 
Важно: от участников потребуется выполнение нетривиальных практических заданий!
Выпускники ПЗАДа, известные в спортивном анализе данных
| 2013 | 2014 | 2015 | 
|---|---|---|
|  Трофимов Михаил Рыжков Александр Софиюк Константин Фонарев Александр Харациди Олег  |  Гущин Александр Семёнов Станислав Фенстер Александра Ульянов Дмитрий Сиверский Михаил Шапулин Андрей Нижибицкий Евгений Остапец Андрей  | это место вакантно | 
Правила
- Рассылки материалов делаются только зарегистрированным слушателям курса (перечислены в таблице слушателей).
 - Слушатели, которые перестают делать домашние задания, удаляются из таблицы.
 - За каждое задание можно было получить от 0 до 10 штрафных баллов. 10 штрафных баллов понижают итоговую оценку на один балл.
 - Для аспирантов и студентов ВМК: важно вовремя делать задания (опоздания штрафуются); экзамена, как такового, не будет; штрафы могут быть исправлены только качественным выполнением последующих заданий
 
Таблица появится после завершения регистрации
Лекции
Здесь будет выложена программа нового (2015 года) - по мере чтения курса.
Старые программы см. на страницах прошлых лет.
| Число | Лекция | Материалы, замечания | 
|---|---|---|
| 16.09.14 |  Вводное занятие: цели курса, материалы, правила, участие в соревнованиях.
 Разбор конкурсных задач: решение задачи [Search Results Relevance] (классическая и неклассическая задачи поиска, сравнение блоков информации, 3-граммы, настройка случайного леса, деформация ответов и решающие правила, выравнивание распределений ответов). Домашнее задание №1: решение задачи [MSUvisits] (прогноз дня недели следующего визита клиента).  | слайды в рассылке | 
Отчётность
- отчёты по решению конкурсных задач (доклады с презентацией + исходники)
 - зачёт с оценкой в конце семестра
 
Страницы курсов прошлых лет
Спецкурс «Прикладные задачи анализа данных» (2013 год)
Спецкурс «Прикладные задачи анализа данных» (2014 год)
Ссылки
- Книга Jure Leskovec, Anand Rajaraman, Jeff Ullman Mining of Massive Datasets * Неплохая книга на английском языке с обзором основных задач и методов в анализе данных (уровень сложности - средний).
 - Книга Beautiful Visualization: Looking at Data through the Eyes of Experts (Theory in Practice) по визуализации данных
 - Книга Шурыгин А.М. Математические методы прогнозирования * Неплохие идеи для решения некоторых практических задач статистики (но в целом, специфична)
 - Статья Прогноз поведения клиентов супермаркетов с помощью весовых схем оценок вероятностей и плотностей.
 - Книга Ту Дж., Гонсалес Р. Принципы распознавания образов * Уже чуть устаревшая книга. Но полистать стоит! Первая «энциклопедия по методам классификации».
 - Прогнозирование рядов соревнования «Tourism Forecasting Part Two» (414Кб) * Подробное описание некоторых простых алгоритмов для прогнозирования туристических временных рядов.
 - Статья A Blending of Simple Algorithms for Topical Classification * Описание метода классификации текстов. Содержание рассказывалось на лекции.
 - Книга К.Д. Маннинг, П. Рагхаван, Х. Шютце «Введение в информационный поиск» * Простая, но хорошая книга по основам работы с текстом (прочитать обязательно).
 - Статья Алгоритмы для рекомендательной системы: технология LENCOR.
 - Книга Научно-популярная лекция «Введение в анализ данных» (PDF, 1.4 Мб) * Вводная лекция, которая написана для просеминара.
 - Анализ данных, обучение по прецедентам, логические игры, системы WEKA, RapidMiner и MatLab (практикум на ЭВМ кафедры математических методов прогнозирования) * Глава 12 «Шаманство в анализе данных».
 - Научно-популярная лекция «Шаманство в анализе данных» (1.21Мб) * Переработка предыдущего источника в научно-популярную лекцию.
 - Научно-популярная лекция «Чему не учат в анализе данных и машинном обучении» * Рассказываются тонкости решения задач, которые умалчиваются в основных курсах.
 
Аналогичные курсы
- Data Science * Аналогичный (по духу) гарвардский курс
 - Страница спецсеминара «Алгебра над алгоритмами и эвристический поиск закономерностей» * Приведены ссылки на сайты с данными реальных задач анализа данных.
 
Ещё ссылки
Неплохая короткая демка про соревнования в анализе данных, платформы для соревнований и возможности системы R.
РАНЕЕ ДОВОДИМАЯ ИНФОРМАЦИЯ
В сентябре 2015 года будет объявлен новый набор слушателей спецкурса.
Поскольку обычно желающих очень много, а работа на спецкурсе подразумевает сильную вовлечённость студентов и небольшое число слушателей, то будет произведён отбор.
Для участия в отборе необходимо:
- освоить (если его не было в учебной программе) курс Машинное обучение,
 - выступить хотя бы в одном соревновании по анализу данных (см. ниже),
 - пройти анкетирование (или собеседование в сентябре).
 
Список допустимых соревнований:
- Search Results Relevance соревнование уже закрыто
 - Caterpillar Tube Pricing соревнование уже закрыто
 - Liberty Mutual Group: Property Inspection Prediction соревнование уже закрыто
 
Результат будет учитываться при отборе. Участие в соревновании не гарантирует отбор!
Важно: участие в соревновании должно быть индивидуальное (в команде 1 человек), называйте команду по образцу: "Team Name (I want to PZAD)".
Как всегда: программа нового года будет слегка отличаться от предыдущих (добавлены новые темы, улучшено содержание).
Курс открыт для всех желающих, но при их большом количестве студенты/аспиранты ВМК МГУ пользуются преимуществом.
Вопросы можно задавать в комментариях к этому посту.
Засчитанные ники соревнования Search Results Relevance
- 39rus (I want to PZAD) - отличный результат
 - Evgeny Nekrasov (I want to PZAD) - отличный результат
 - Artem (I want to PZAD) - отличный результат
 
- Evgeny Eltyshev (I want to PZAD)
 - Denis Tsitko (I want to PZAD)
 
- anketer (I want to PZAD)
 - Andrey Akhmetov (I want to PZAD)
 - cheerupdude (I want to PZAD)
 - kvas7andy (I want to PZAD) - формальное участие
 - Johny Cheescutter (I want to PZAD) - низкий результат
 - Nonary Rustam( I want to PZAD) - формальное участие
 
- Pavel Blinov (I want to PZAD)
 - Georgy Ivanov (I want to PZAD)
 - HeBo (I want to PZAD)
 - Igor Subbotin (I want to PZAD)
 - Pasha Podolsky (I want to PZAD)
 - Maxim Kharchenko (I want to PZAD)
 - golovan (I want to PZAD) - слабая активность
 
Засчитанные ники соревнования Liberty Mutual Group: Property Inspection Prediction
Очень высокий результат:
- Iskander (I want to PZAD)
 - Vladimir Nikolaev (I want to PZAD)
 - VA (I want to PZAD)
 
Остальные результаты коррелируют с бенчмарками или хуже
- Ilya Aleshin(I Want to PZAD)
 - dioexul (I want to PZAD)
 - kvas7andy (I want to PZAD) формальное участие
 - antklen (I want to PZAD)
 - Янина Анастасия (I want to PZAD) формальное участие
 - Denis Tsitko (I want to PZAD)
 - Evgeny Nekrasov (I want to PZAD)
 - Tilga Sergey (I want to PZAD)
 - Igor Subbotin (I want to PZAD)
 - Антон Панкратов (I want to PZAD)
 - Kirill Lunev (I want to PZAD)
 - Aleksey Pogrebnyak (I want to PZAD)
 - WHGP (I want to PZAD)
 - Evgeny Eltyshev (I want to PZAD)
 - Btbpanda (I want to PZAD)
 - dsmolyakov (I want to PZAD)
 - Roman K (I want to PZAD) большая активность - 103
 - Grigory Dymov (I want to PZAD)
 - 39rus (I want to PZAD)
 - Evgeny (I want to PZAD)
 - Tazhoo Deen (I want to PZAD)
 - Roman Khalkechev (I want to PZAD) формальное участие
 - Mark Winogradov (I want to PZAD) формальное участие
 - Taygrim(I want to PZAD) формальное участие
 
Засчитанные ники соревнования Caterpillar Tube Pricing
- Kaffo (I want to PZAD) высокий результат
 - Sergey Tilga (I want to PZAD) высокий результат
 - Nikolay Mayorov (I want to PZAD) высокий результат
 - Andrey Akhmetov (I want to PZAD) высокий результат
 - Vladimir (I want to PZAD) высокий результат
 - Evgeny Eltyshev (I want to PZAD)
 - Denis Tsitko (I want to PZAD)
 - persiyanov (I want to PZAD)
 - denny_sem[I want to PZAD]
 - WHGP (I want to PZAD) формальное участие
 - Антон Панкратов (I want to PZAD)
 - dioexul (I want to PZAD)
 - Янина Анастасия (I want to PZAD) формальное участие
 - cheerupdude (I want to PZAD)
 - grapefroot(I want to PZAD) формальное участие
 - Maxim Kharchenko (I want to PZAD)
 - Tazhoo Deen (I want to PZAD)
 - Julia Gusak (I want to PZAD)
 - mondgottin (I want to PZAD) формальное участие
 - golovan (I want to PZAD)
 - Roman Khalkechev (I want to PZAD) формальное участие
 - kittens_gonna_kitt (I want to PZAD) формальное участие
 

