БММО (курс лекций)/2013/Задание 1
Материал из MachineLearning.
м   | 
			|||
| (7 промежуточных версий не показаны.) | |||
| Строка 1: | Строка 1: | ||
| - | {{Main|Байесовские методы машинного обучения (курс лекций, Д.П. Ветров, Д.А. Кропотов)}}  | + | {{Main|Байесовские методы машинного обучения (курс лекций, Д.П. Ветров, Д.А. Кропотов)/весна 2013}}  | 
__TOC__  | __TOC__  | ||
| Строка 52: | Строка 52: | ||
<tex>b \sim R[b_{min},b_{max}]</tex>.<br>   | <tex>b \sim R[b_{min},b_{max}]</tex>.<br>   | ||
| - | <br>Задание состоит из трех вариантов. Распределение студентов по вариантам   | + | <br>Задание состоит из трех вариантов.   | 
| + | == Распределение студентов по вариантам ==  | ||
| + | |||
| + | {|class = "standard sortable"  | ||
| + |  ! class="unsortable"|№ п/п !! Студент  !! Вариант !! Оценка  | ||
| + |  |-  | ||
| + |  | align="center"|1 || Шальнов || 1 || 5  | ||
| + |  |-  | ||
| + |  | align="center"|2 || Чистяков || 3 || 5  | ||
| + |  |-  | ||
| + |  | align="center"|3 || Захаров || 3  ||  | ||
| + |  |-  | ||
| + |  | align="center"|4 || Козлов || 3 || 3.9  | ||
| + |  |-  | ||
| + |  | align="center"|5 || Апишев || 2 ||  | ||
| + |  |-  | ||
| + |  | align="center"|6 || Шишватов || 1 ||  | ||
| + |  |-  | ||
| + |  | align="center"|7 || Максимов || 1 ||  | ||
| + |  |-  | ||
| + |  | align="center"|8 || Хальман  || 2 ||  | ||
| + |  |-  | ||
| + |  | align="center"|9 || Чурьянов || 2  ||  | ||
| + |  |-  | ||
| + |  | align="center"|10 || Кольцов || 1 ||  | ||
| + |  |-  | ||
| + |  | align="center"|11 || Вашуров || 2 ||  | ||
| + |  |-  | ||
| + |  | align="center"|12 || Колосов || 2 || 4.5  | ||
| + |  |-  | ||
| + |  | align="center"|13 || Николайчук || 3 ||  | ||
| + |  |-  | ||
| + |  | align="center"|14 || Хомутов || 2 || 4.5  | ||
| + |  |-  | ||
| + |  | align="center"|15 || Готман || 3 ||  | ||
| + |  |-  | ||
| + |  | align="center"|16 || Ожерельев || 1 || 4  | ||
| + |  |-  | ||
| + |  | align="center"|17 || Сокурский || 1 || 4.5  | ||
| + |  |-  | ||
| + |  | align="center"|18 || Новиков || 1 || 4.9  | ||
| + |  |-  | ||
| + |  | align="center"|18 || Таболин || 3 ||  | ||
| + |  |-  | ||
| + |  |}  | ||
| + | |||
| + | Кто не обнаружил себя в списках, пожалуйста, отпишитесь нам (bayesml@gmail.com). Если чью-то фамилию не разобрал, не взыщите - сообщите и мы исправим :) Для студентов второго курса требования по эффективности реализации являются опциональными.  | ||
== Вариант 1 ==  | == Вариант 1 ==  | ||
| Строка 92: | Строка 138: | ||
== Оформление задания ==  | == Оформление задания ==  | ||
| - | Выполненное задание следует отправить письмом по адресу ''bayesml@gmail.com'' с заголовком письма «[  | + | Выполненное задание следует отправить письмом по адресу ''bayesml@gmail.com'' с заголовком письма «[БММО13] Задание 1 <ФИО>». Убедительная просьба присылать выполненное задание '''только один раз''' с окончательным вариантом. Также убедительная просьба строго придерживаться заданных ниже прототипов реализуемых функций.  | 
Присланный вариант задания должен содержать в себе:  | Присланный вариант задания должен содержать в себе:  | ||
Текущая версия
Содержание | 
Начало выполнения задания: 13 марта 2013 г.
Срок сдачи: 28 марта 2013 г., 23:59.
Среда для выполнения задания — MATLAB.
Вероятностные модели посещаемости курса
Рассмотрим модель посещаемости студентами одного курса лекции. Пусть аудитория данного курса состоит из студентов профильной кафедры, а также студентов других кафедр. Обозначим через  количество студентов, распределившихся на профильную кафедру, а через 
 — количество студентов других кафедр на курсе. Пусть студенты профильной кафедры посещают курс с некоторой вероятностью 
, а студенты остальных кафедр — с вероятностью 
. Обозначим через 
 количество студентов на данной лекции. Тогда случайная величина 
 есть сумма двух случайных величин, распределенных по биномиальному закону 
 и 
 соответственно. Пусть далее на лекции по курсу ведется запись студентов. При этом каждый студент записывается сам, а также, быть может, записывает своего товарища, которого на лекции на самом деле нет. Пусть студент записывает своего товарища с некоторой вероятностью 
. Обозначим через 
 общее количество записавшихся на данной лекции. Тогда случайная величина 
 представляет собой сумму 
 и случайной величины, распределенной по биномиальному закону 
. Для завершения задания вероятностной модели осталось определить априорные вероятности для 
 и для 
. Пусть обе эти величины распределены равномерно в своих интервалах 
 и 
. Таким образом, мы определили следующую вероятностную модель:
Модель 1
  | 
Рассмотрим несколько упрощенную версию модели 1. Известно, что биномиальное распределение  при большом количестве испытаний и маленькой вероятности успеха может быть с высокой точностью приближено пуассоновским распределением 
 с 
. Известно также, что сумма двух пуассоновских распределений с параметрами 
 и 
 есть пуассоновское распределение с параметром 
. Таким образом, мы можем сформулировать вероятностную модель, которая является приближенной версией модели 1:
Модель 2
,
,
,
,
.
Рассмотрим теперь модель посещаемости нескольких лекций курса. Будем считать, что посещаемости отдельных лекций являются независимыми. Тогда:
Модель 3
  | 
По аналогии с моделью 2 можно сформулировать упрощенную модель для модели 3:
Модель 4
,
,
,
,
.
 
Задание состоит из трех вариантов. 
Распределение студентов по вариантам
| № п/п | Студент | Вариант | Оценка | 
|---|---|---|---|
| 1 | Шальнов | 1 | 5 | 
| 2 | Чистяков | 3 | 5 | 
| 3 | Захаров | 3 | |
| 4 | Козлов | 3 | 3.9 | 
| 5 | Апишев | 2 | |
| 6 | Шишватов | 1 | |
| 7 | Максимов | 1 | |
| 8 | Хальман | 2 | |
| 9 | Чурьянов | 2 | |
| 10 | Кольцов | 1 | |
| 11 | Вашуров | 2 | |
| 12 | Колосов | 2 | 4.5 | 
| 13 | Николайчук | 3 | |
| 14 | Хомутов | 2 | 4.5 | 
| 15 | Готман | 3 | |
| 16 | Ожерельев | 1 | 4 | 
| 17 | Сокурский | 1 | 4.5 | 
| 18 | Новиков | 1 | 4.9 | 
| 18 | Таболин | 3 | 
Кто не обнаружил себя в списках, пожалуйста, отпишитесь нам (bayesml@gmail.com). Если чью-то фамилию не разобрал, не взыщите - сообщите и мы исправим :) Для студентов второго курса требования по эффективности реализации являются опциональными.
Вариант 1
Рассматривается модель 2 с параметрами . Провести на компьютере следующие исследования:
-  Найти математические ожидания и дисперсии априорных распределений для всех параметров 
.
 -  Пронаблюдать, как происходит уточнение прогноза для величины 
по мере прихода новой косвенной информации. Для этого построить графики и найти мат.ожидание и дисперсию для распределений
при параметрах
, равных мат.ожиданиям своих априорных распределений, округленных до ближайшего целого.
 -  Определить, какая из величин 
вносит больший вклад в уточнение прогноза для величины
(в смысле дисперсии распределения). Для этого убедиться в том, что
и
для любых допустимых значений
. Найти множество точек
таких, что
. Являются ли множества
и
линейно разделимыми?
 -  Провести временные замеры по оценке всех необходимых распределений 
.
 - Провести исследования из пп. 1-4 для точной модели 1 и сравнить результаты с аналогичными для модели 2. Привести пример оценки параметра, в котором разница между моделью 1 и 2 проявляется в большой степени.
 
Взять в качестве диапазона допустимых значений для величины  интервал 
, а для величины 
 — интервал 
.
При оценке выполнения задания будет учитываться эффективность программного кода. В частности, временные затраты на расчет отдельного распределения не должны превышать одной секунды.
Вариант 2
Рассматривается модель 2 с параметрами . Провести на компьютере следующие исследования:
-  Найти математические ожидания и дисперсии априорных распределений для всех параметров 
.
 -  Пронаблюдать, как происходит уточнение прогноза для величины 
по мере прихода новой косвенной информации. Для этого построить графики и найти мат.ожидание и дисперсию для распределений
при параметрах
, равных мат.ожиданиям своих априорных распределений, округленных до ближайшего целого.
 -  Определить, при каких соотношениях параметров 
изменяется относительная важность параметров
для оценки величины
. Для этого найти множество точек
при
, равных мат.ожиданиям своих априорных распределений, округленных до ближайшего целого. Являются ли множества
и
линейно разделимыми?
 -  Провести временные замеры по оценке всех необходимых распределений 
.
 - Провести исследования из пп. 1-4 для точной модели 1 и сравнить результаты с аналогичными для модели 2. Привести пример оценки параметра, в котором разница между моделью 1 и 2 проявляется в большой степени.
 
Взять в качестве диапазона допустимых значений для величины  интервал 
, а для величины 
 — интервал 
.
При оценке выполнения задания будет учитываться эффективность программного кода. В частности, временные затраты на расчет отдельного распределения не должны превышать одной секунды.
Вариант 3
Рассматривается модель 4 с параметрами . Провести на компьютере следующие исследования:
-  Найти математические ожидания и дисперсии априорных распределений для всех параметров 
.
 -  Реализовать генератор выборки 
из модели при заданных значениях параметров
.
 -  Пронаблюдать, как происходит уточнение прогноза для величины 
по мере прихода новой косвенной информации. Для этого построить графики и найти мат.ожидание и дисперсию для распределений
, где выборка
1) сгенерирована из модели при параметрах
, равных мат.ожиданиям своих априорных распределений, округленных до ближайшего целого и 2)
, где
равно мат.ожиданию своего априорного распределения, округленного до ближайшего целого. Провести аналогичный эксперимент, если дополнительно известно значение
. Сравнить результаты двух экспериментов.
 -  Провести временные замеры по оценке всех необходимых распределений 
.
 - Провести исследования из пп. 1-4 для точной модели 3 и сравнить результаты с аналогичными для модели 4.
 
Взять в качестве диапазона допустимых значений для величины  интервал 
, а для величины 
 — интервал 
.
При оценке выполнения задания будет учитываться эффективность программного кода. В частности, временные затраты на расчет отдельного распределения не должны превышать одной секунды.
Оформление задания
Выполненное задание следует отправить письмом по адресу bayesml@gmail.com с заголовком письма «[БММО13] Задание 1 <ФИО>». Убедительная просьба присылать выполненное задание только один раз с окончательным вариантом. Также убедительная просьба строго придерживаться заданных ниже прототипов реализуемых функций.
Присланный вариант задания должен содержать в себе:
- Текстовый файл в формате PDF с указанием ФИО и номера варианта, содержащий описание всех проведенных исследований.
 - Все исходные коды с необходимыми комментариями.
 
Исходные коды должны включать в себя реализацию оценки распределений в виде отдельных функций. Прототип для функции оценки распределения  для модели 2 имеет следующий вид:
| Оценка распределения  | ||||
|---|---|---|---|---|
| [p, c, m, v] = p2c_ad(a, d, params) | ||||
| ВХОД | ||||
  | ||||
| ВЫХОД | ||||
  | 
Прототипы функций для других распределений выглядят аналогично. Если в распределении переменных до или после | несколько, то в названии функции они идут в алфавитном порядке. Функция для оценки распределения  для модели 3 имеет название p3b_ad, а входной параметр 
 является одномерным массивом длины 
. 
| Генерация из распределения  | ||||
|---|---|---|---|---|
| d = m3_generate(N, a, b, params) | ||||
| ВХОД | ||||
  | ||||
| ВЫХОД | ||||
  | 

