Спецкурс «Прикладные задачи анализа данных»
Материал из MachineLearning.
 (→Лекции)  | 
				 (→Правила)  | 
			||
| Строка 32: | Строка 32: | ||
! 15.10 - соцсети<br> преодоление порога  | ! 15.10 - соцсети<br> преодоление порога  | ||
! 05.11 - что за данные  | ! 05.11 - что за данные  | ||
| + | ! 06.11 - отчёты по соцсетям  | ||
|-  | |-  | ||
| Семёнов Станислав Георгиевич  | | Семёнов Станислав Георгиевич  | ||
| Строка 38: | Строка 39: | ||
| +  | | +  | ||
| +  | | +  | ||
| + | |  | ||
|-  | |-  | ||
| Арбузова Дарья Андреевна  | | Арбузова Дарья Андреевна  | ||
| Строка 44: | Строка 46: | ||
| +  | | +  | ||
| +  | | +  | ||
| + | |  | ||
|-  | |-  | ||
| Гущин Александр Евгеньевич  | | Гущин Александр Евгеньевич  | ||
| Строка 50: | Строка 53: | ||
| +  | | +  | ||
| +  | | +  | ||
| + | |  | ||
|-  | |-  | ||
| Потапенко Анна Александровна  | | Потапенко Анна Александровна  | ||
| Строка 56: | Строка 60: | ||
| +  | | +  | ||
| +  | | +  | ||
| + | |  | ||
|-  | |-  | ||
| Фенстер Александра Михайловна  | | Фенстер Александра Михайловна  | ||
| Строка 62: | Строка 67: | ||
| +  | | +  | ||
| +  | | +  | ||
| + | |  | ||
|-  | |-  | ||
| Вихрева Мария Викторовна  | | Вихрева Мария Викторовна  | ||
| Строка 68: | Строка 74: | ||
| +  | | +  | ||
| +  | | +  | ||
| + | |  | ||
|-  | |-  | ||
| Бахтин Антон Вячеславович  | | Бахтин Антон Вячеславович  | ||
| Строка 74: | Строка 81: | ||
| [-5]  | | [-5]  | ||
| +  | | +  | ||
| + | |  | ||
|-  | |-  | ||
| Ульянов Дмитрий Владимирович  | | Ульянов Дмитрий Владимирович  | ||
| Строка 80: | Строка 88: | ||
| +  | | +  | ||
| +  | | +  | ||
| + | |  | ||
|-  | |-  | ||
| Шапулин Андрей Валентинович  | | Шапулин Андрей Валентинович  | ||
| Строка 86: | Строка 95: | ||
| +  | | +  | ||
| +  | | +  | ||
| + | |  | ||
|-  | |-  | ||
| Сиверский Михаил Николаевич  | | Сиверский Михаил Николаевич  | ||
| Строка 92: | Строка 102: | ||
| [-5]  | | [-5]  | ||
| +  | | +  | ||
| + | |  | ||
|-  | |-  | ||
| Игнатов Алексей Николаевич  | | Игнатов Алексей Николаевич  | ||
| Строка 97: | Строка 108: | ||
| [-10]  | | [-10]  | ||
| +  | | +  | ||
| + | |  | ||
|  | |  | ||
|-  | |-  | ||
| Строка 103: | Строка 115: | ||
| + / +  | | + / +  | ||
| +  | | +  | ||
| + | |  | ||
|  | |  | ||
|-  | |-  | ||
| Строка 109: | Строка 122: | ||
| + / +  | | + / +  | ||
| +  | | +  | ||
| + | |  | ||
|  | |  | ||
|-  | |-  | ||
| Строка 116: | Строка 130: | ||
| +  | | +  | ||
| 0  | | 0  | ||
| + | |  | ||
|-  | |-  | ||
| Байбурин Валерий Тагирович  | | Байбурин Валерий Тагирович  | ||
| Строка 121: | Строка 136: | ||
| + / - [-5]  | | + / - [-5]  | ||
| [-5]  | | [-5]  | ||
| + | |  | ||
|  | |  | ||
|-  | |-  | ||
| Строка 128: | Строка 144: | ||
| [-5]  | | [-5]  | ||
| +  | | +  | ||
| + | |  | ||
|-  | |-  | ||
| Чинаев Николай Николаевич  | | Чинаев Николай Николаевич  | ||
| Строка 133: | Строка 150: | ||
| [-10]  | | [-10]  | ||
| [-5]  | | [-5]  | ||
| + | |  | ||
|  | |  | ||
|-  | |-  | ||
| Строка 140: | Строка 158: | ||
| +  | | +  | ||
| +  | | +  | ||
| + | |  | ||
|-  | |-  | ||
| Нижибицкий Евгений  | | Нижибицкий Евгений  | ||
| Строка 146: | Строка 165: | ||
| +  | | +  | ||
| +  | | +  | ||
| + | |  | ||
|-  | |-  | ||
| Остапец Андрей  | | Остапец Андрей  | ||
| Строка 152: | Строка 172: | ||
| +  | | +  | ||
| +  | | +  | ||
| + | |  | ||
|}  | |}  | ||
Версия 20:57, 4 ноября 2014
|   |  Регистрация на спецкурс завершена. Кто не успел - ждите следующего года.
 
  | 
Содержание | 
Аннотация
|   | Данный курс стал победителем конкурса инновационных учебных технологий. | 
Лектор: Дьяконов Александр
Основная цель: практика решения современных задач классификации, прогнозирования, регрессии, рекомендации и т.п., подготовка участников к соревнованиям на платформах Kaggle и Algomost.
Мероприятие проходит в двух режимах:
- спецкурса – лекции о решении прикладных задач, обучение некоторым системам анализа данных (например R, Matlab, Python+ и т.п.
 - спецсеминара – обсуждение решаемых задач, выработка общих стратегий, разделение работы в рамках участия в соревновании одной командой, мозговой штурм и т.п.
 
Важно: от участников потребуется выполнение нетривиальных практических заданий!
Правила
- Рассылки материалов делаются только зарегистрированным слушателям курса (перечислены в таблице слушателей).
 - Слушатели, которые перестают делать домашние задания, удаляются из таблицы.
 - За каждое задание можно было получить от 0 до 10 штрафных баллов. 10 штрафных баллов понижают итоговую оценку на один балл.
 
| ЗАПИСАЛИСЬ | группа |  08.10 - соцсети email/LB  |  15.10 - соцсети преодоление порога  | 05.11 - что за данные | 06.11 - отчёты по соцсетям | 
|---|---|---|---|---|---|
| Семёнов Станислав Георгиевич | ВШЭ | - / 0 [-7] | + | + | |
| Арбузова Дарья Андреевна | 517 | + / + | + | + | |
| Гущин Александр Евгеньевич | МФТИ | + / + | + | + | |
| Потапенко Анна Александровна | 617 | + / + | + | + | |
| Фенстер Александра Михайловна | НИУ ВШЭ 172мАИД | + / + | + | + | |
| Вихрева Мария Викторовна | 315 | + / + | + | + | |
| Бахтин Антон Вячеславович | МГУ, Яндекс | + / - [-5] | [-5] | + | |
| Ульянов Дмитрий Владимирович | 517 | + / 0 [-2] | + | + | |
| Шапулин Андрей Валентинович | 417 | + / + | + | + | |
| Сиверский Михаил Николаевич | физфак | [-10] | [-5] | + | |
| Игнатов Алексей Николаевич | 516 | [-10] | + | ||
| Сокурский Юрий Валентинович | 517 | + / + | + | ||
| Дойков Никита Владимирович | 417 | + / + | + | ||
| Лукашкина Юлия Николаевна | 417 | [-10] | + | 0 | |
| Байбурин Валерий Тагирович | м118 | + / - [-5] | [-5] | ||
| Дымов Григорий Андреевич | Stockholm university | + / + | [-5] | + | |
| Чинаев Николай Николаевич | МФТИ | [-10] | [-5] | ||
| Хальман Михаил Анатольевич | 417 | + / + | + | + | |
| Нижибицкий Евгений | аспВМК | - / 0 [-7] | + | + | |
| Остапец Андрей | аспВМК | - / + [-5] | + | + | 
Лекции
Здесь будет выложена программа нового (2014 года) - по мере чтения курса.
| Число | Лекция | Материалы, замечания | 
|---|---|---|
| 24.09.14 | Matrix Laboratory (эффективное программирование): системы и языки для анализа малых данных, интерпретатор Matlab (достоинства и недостатки), типы данных (массивы ячеек, структуры, строки, логические массивы, NaN), матрицы (порождение, конкатенация, индексация, разреженные матрицы), операции над ними, фокусы с размерностями, файловый ввод и вывод, m-файлы (функции и скрипты), графика (начало), анонимные функции, поэлементные функции, основы эффективного программирования, возможности работы с большими данными | слайды лекции 1, рекомендованное учебное пособие: Анализ данных, обучение по прецедентам, логические игры, системы WEKA, RapidMiner и MatLab | 
| 01.10.14 |  Вводное занятие: цели курса, материалы, правила, участие в соревнованиях.
 Домашнее задание №1: Соревнование Learning Social Circles in Networks по определению кругов в эго-подграфах графа социальной сети (задача, данные, их загрузка, редакторское расстояние), приложения анализа социальных сетей. Социальные сети: динамические графы, приложения анализа социальных сетей, погружение графов в признаковое пространство, сходство вершин, важность вершин.  | слайды лекции 2 (zip, jpg 8Mb), книга [1], код для загрузки данных | 
| 08.10.14 |  Социальные сети (продолжение): прогнозирование появления рёбер в динамическом графе, решение задачи соревнования IJCNN Social Network Challenge, признаки рёбер, алгоритм PageRank и его модификации, сообщества в графах и их выделение, спектральные методы на графах, генерация случайных графов.
 Домашнее задание №1: мозговой штурм.  | слайды лекции 2 (zip, jpg 8Mb), статья Learning to Discover Social Circles in Ego Networks, обзор Community Detection in Graphs, обзор Случайные графы, модели и генераторы. | 
| 15.10.14 | Искусство визуализации данных: игра "Что за данные", признаки в задаче [bioresponse], выделение групп признаков, что можно увидеть в данных, оценка признаков и фолдов, деформация ответов, устойчивость закономерностей, профили лет (в прогнозировании вр.рядов), плотности, оценка качества признаков с помощью RF и удалений, результаты алгоритмов и их линейные комбинации, ручная деформация пространств, визуализация и сглаживание плотностей, построение профилей. Что надо знать о признаках. Визуализация по-вертикали и по-горизонтали. Шумы и шумовые признаки. Задачи [cause-effect-pairs], [GiveMeSomeCredit], [DarkWorlds]. | слайды лекции 3 (zip, jpg 7.6Mb), книга [2] | 
| 22.10.14 | Оценка среднего, оценка вероятности, оценка плотности. Весовые схемы.: проблема оценки среднего, выбросы, разные целевые функционалы, оценка минимального контраста, среднее по Колмогорову, SMAPE-минимизация, двухэтапные алгоритмы и их настройка, пересчёт вероятности и прямая оценка, введение весовых схем, устойчивость весовых схем, ансамблирование, непараметрическое восстановление плотности, весовые схемы при оценке плотности. Задача [dunnhumby's Shopper Challenge]. Задача [пробки]. | слайды лекции 4 (zip, jpg 9.3Mb), книга [3], статья [4] | 
| 29.10.14 | Оценка среднего, оценка вероятности, оценка плотности. Весовые схемы. (продолжение) | |
| 05.11.14 |  Линейные алгоритмы.
 Разбор решения задачи соревнования IJCNN Social Network Challenge.  | 
Старую программу см. на странице Спецкурс «Прикладные задачи анализа данных» (2013 год).
Отчётность
- отчёты по решению конкурсных задач (доклады с презентацией + исходники)
 - зачёт с оценкой в конце семестра
 
Страницы курсов прошлых лет
Спецкурс «Прикладные задачи анализа данных» (2013 год)
Ссылки
- Книга Jure Leskovec, Anand Rajaraman, Jeff Ullman Mining of Massive Datasets * Неплохая книга на английском языке с обзором основных задач и методов в анализе данных (уровень сложности - средний).
 - Книга Beautiful Visualization: Looking at Data through the Eyes of Experts (Theory in Practice) по визуализации данных
 - Книга Шурыгин А.М. Математические методы прогнозирования * Неплохие идеи для решения некоторых практических задач статистики (но в целом, специфична)
 - Статья Прогноз поведения клиентов супермаркетов с помощью весовых схем оценок вероятностей и плотностей.
 - Книга Научно-популярная лекция «Введение в анализ данных» (PDF, 1.4 Мб) * Вводная лекция, которая написана для просеминара.
 - Анализ данных, обучение по прецедентам, логические игры, системы WEKA, RapidMiner и MatLab (практикум на ЭВМ кафедры математических методов прогнозирования) * Глава 12 «Шаманство в анализе данных».
 - Научно-популярная лекция «Шаманство в анализе данных» (1.21Мб) * Переработка предыдущего источника в научно-популярную лекцию.
 - Научно-популярная лекция «Чему не учат в анализе данных и машинном обучении» * Рассказываются тонкости решения задач, которые умалчиваются в основных курсах.
 - Прогнозирование рядов соревнования «Tourism Forecasting Part Two» (414Кб) * Подробное описание некоторых простых алгоритмов для прогнозирования туристических временных рядов.
 - Data Science * Аналогичный (по духу) гарвардский курс
 - Страница спецсеминара «Алгебра над алгоритмами и эвристический поиск закономерностей» * Приведены ссылки на сайты с данными реальных задач анализа данных.
 
Ещё ссылки
Неплохая короткая демка про соревнования в анализе данных, платформы для соревнований и возможности системы R.
ДОВОДИМАЯ РАНЕЕ ИНФОРМАЦИЯ (уже не актуальна)
В сентябре 2014 года будет объявлен новый набор слушателей спецкурса.
Поскольку обычно желающих очень много, а работа на спецкурсе подразумевает сильную вовлечённость студентов и небольшое число слушателей, то будет произведён отбор.
Для участия в отборе необходимо:
- освоить (если его не было в учебной программе) курс Машинное обучение,
 - выступить хотя бы в одном соревновании по анализу данных (см. ниже),
 - Пройти анкетирование (или собеседование в сентябре).
 
Список допустимых соревнований:
- Display Advertising Challenge завершён
 - Liberty Mutual Group - Fire Peril Loss Cost завершён
 - The Hunt for Prohibited Content завершён
 - Higgs Boson Machine Learning Challenge завершён
 - ecMeg2014 - Decoding the Human Brain завершён
 - Detect seizures in intracranial EEG recordings завершён
 - KDD Cup 2014 - Predicting Excitement at DonorsChoose.org завершён
 - Acquire Valued Shoppers Challenge завершён
 - Greek Media Monitoring Multilabel Classification (WISE 2014) завершён
 
Результат будет учитываться при отборе. Участие в соревновании не гарантирует отбор!
В новой версии спецкурса будет серия лекций по системам Matlab и R.
Кроме того, будут рассмотрены новые темы: например, анализ соцсетей.
Объявлен набор слушателей на спецкурс (5 сентября 2014 года).
Необходима регистрация! Для этого надо прислать на почту djakonov (собака) mail (точка) ru
Тема письма: [ПЗАД] Фамилия студента
Текст: в первой строке через точку с запятой указываются
- Фамилия Имя Отчество,
 - группа (вуз, если из другого вуза),
 - в скольких соревнования на сайте Kaggle участвовали (число),
 - какие курсы по машинному обучению прослушаны,
 - желаемые дни и часы (в формате ПТН, 18-00),
 - знакомые языки и системы программирования, включая программы и библиотеки для машинного обучения,
 - страница на Kaggle,
 - сколько часов в неделю готовы уделять выполнению практических заданий.
 
В других строчках (начиная со второй) можно по желанию дать пояснения.
Пример:
Дьяконов Александр Геннадьевич; 617; 25; ММРО Воронцов; ВТ 18-00, СР 16-20; R, Matlab, Python, Weka, RapidMiner, Liblinear, VW; https://www.kaggle.com/users/3090/alexander-d-yakonov; 8
Посещение спецкурса закрытое, число мест ограничено, регистрация скоро будет закрыта – спешите…

