Участник:Riabenko/tmp
Материал из MachineLearning.
м   | 
				м   | 
			||
| Строка 1: | Строка 1: | ||
| - | ===   | + | ===Надёжность шарикоподшипников===<!---bearing.xlsx--->  | 
| - | + | Мерой надёжности шарикоподшипников служит величина <tex>L_{10}</tex> — максимальное число оборотов, которое выдерживает 90% одинаковых подшипников. Имеются данные измерений надёжности по шарикоподшипникам трёх производителей (для одного из производителей исследовано три вида подшипников), для каждого испытания указаны диаметр и число шаров в подшипнике, нагрузка и величина <tex>L_{10}</tex>.  | |
| - | :::   | + | ::: построить функцию, оценивающую <tex>L_{10}</tex> по имеющимся признакам, рассчитать точность оценки.  | 
| - | ===   | + | ===Эффективность тромболитической терапии===<!---cardio.xls--->  | 
| - | + | Собраны данные по 206 пациентам второго кардиологического отделения московской городской клинической больницы №25. Имеются результаты 14 анализов, а также 8 дополнительных признаков, описывающих пациента (пол, возраст, курение, наличие диабета и т.д.)  | |
| - | :::   | + | ::: построить функцию, оценивающую вероятность выздоровления пациента в результате тромболитической терапии по приведённым 22 признакам.  | 
| + | ::: построить функцию, оценивающую вероятность возникновения осложнений у пациента в результате тромболитической терапии по приведённым 22 признакам.  | ||
| - | ===  | + | ===Лесные пожары в парке Монтезинью===<!---forest_fires.csv--->  | 
| - | + | [[Изображение:Park.png|200px|thumb|Парк Монтезинью, разбиение на зоны.]]  | |
| - | ::  | + | Данные собраны в 2001-2003 годах в португальском природном парке Монтезинью. Известны: месяц и день недели, температура воздуха, относительная влажность, скорость ветра, число выпавших осадков, значения четырёх метеорологических индексов, координаты зоны, в которой были произведены эти измерения (см. рис.), а также площадь леса, уничтоженного произошедшим в этот день пожаром (если он был).  | 
| + | ::: построить модель, позволяющую оценить по рассматриваемым признакам вероятность пожара и доверительный интервал для неё.  | ||
| - | ===   | + | ===Солнечная активность===<!---solar flares.xls--->  | 
| - | + | Имеется 1066 наблюдений над различными участками поверхности Солнца. Известны: класс участка, размер максимального пятна на участке, распределение пятен, относительная активность, тип эволюции участка, код активности в предыдущие 24 часа, площадь участка. Известны также сложность участка в наблюдавшемся прошлом и при последнем повороте вокруг Солнца. Известно также число вспышек на каждом участке в течение 24 часов после начала наблюдения, причём вспышки разделены на три категории по мощности.  | |
| - | :::   | + | ::: построить модель, по свойствам участка предсказывающую суммарную вероятность возникновения вспышек любого типа и доверительный интервал для неё.  | 
| + | ::: построить модель, по свойствам участка предсказывающую суммарное число вспышек любого типа в последующие 24 часа, дать интерпретацию коэффициентов.  | ||
| - | ===  | + | ===Преступность и демографические характеристики===<!---crimes.xlsx--->  | 
| - | + | Данные собраны из переписи населения США 1990 года, отчёта ФБР о преступности за 1995 год и опроса сотрудников полиции LEMAS за 1990 год. По 2215 округам собрана статистика преступлений и 125 демографических показателей.  | |
| - | :::   | + | ::: построить функцию, оценивающую число поджогов на сто тысяч населения по демографическим показателям, дать интерпретацию коэффициентов модели.  | 
| + | ::: построить функцию, оценивающую абсолютное число автомобильных краж по демографическим показателям, дать интерпретацию коэффициентов модели.  | ||
| + | ::: построить функцию, оценивающую число ненасильственных преступлений на сто тысяч населения по демографическим показателям, дать интерпретацию коэффициентов модели.  | ||
| - | ===  | + | ===Линька крабов===<!---crabs.csv--->  | 
| - | + | У 472 самок metacarcinus magister измерена ширина панциря до и после линьки. Часть особей проживала в лаборатории, часть — в естественной среде обитания; для последних известен также год вылова.  | |
| - | :::   | + | ::: построить модель изменения размеров панциря с учётом всех факторов.  | 
| - | ===  | + | ===Пожертвования на благотворительность===<!---charity.xlsx--->  | 
| - | + | Благотворительная организация разослала 4268 писем с предложением сделать пожертвование и получила отклик с пожертвованиями от 1707 адресатов. Для каждого адресата известны: индикатор ответа на предыдущее письмо, число недель, прошедших с момента предыдущего пожертвования, размеры текущего, предыдущего и среднего по всем предыдущим пожертвованиям в голландских гульденах, число писем, отправляемых адресату в год, доля писем, в ответ на которые приходят пожертвования.  | |
| - | :::   | + | ::: построить функцию, оценивающую вероятность получения пожертвования от адресата по историческим данным.  | 
| + | ::: построить функцию, оценивающую вероятный размер пожертвования от адресата по историческим данным.  | ||
| - | ===   | + | ===Вкус португальского вина===<!---wine.xlsx--->  | 
| - | + | Для 1599 образцов красного и 4898 белого португальского вина известны оценки (от 0 до 10), выставленные дегустаторами при слепом тестировании, а также значения одиннадцати биохимических показателей, полученных при лабораторном анализе.  | |
| - | :::   | + | ::: построить модель экспертной оценки по биохимическим характеристикам, оценить влияние содержания алкоголя на экспертную оценку.  | 
| + | ::: построить функцию, оценивающую вероятность того, что вино, для которого известны биохимические характеристики и экспертная оценка, является красным, и доверительный интервал для неё. Оценить влияние экспертной оценки на эту вероятность.  | ||
| + | |||
| + | ===Состав бетона===<!---concrete.xlsx--->  | ||
| + | Для 103 образцов раствора бетона известно содержание в кубическом метре семи основных компонент, для каждого образца измерены также осадка, растекание и прочность на сжатие.  | ||
| + | ::: построить функцию, оценивающую растекание бетона по его составу.  | ||
| + | ::: построить функцию, оценивающую прочность бетона на сжатие по всем имеющимся характеристикам, оценить вклад растекания и осадки.  | ||
| + | |||
| + | ===Внешний вид и привлекательность самок мечехвостов===<!---horseshoe crab.txt--->  | ||
| + | Изучалось влияние внешних характеристик самок морских ракообразных мечехвостов на их привлекательность для самцов. Выборка состоит из данных о наблюдениях над 173 особями и содержит закодированные данные о размере самок, их весе, цвете, состоянии панциря, а также о количестве спутников.  | ||
| + | ::: построить функцию, по внешним параметрам самки предсказывающую количество спутников у самки. Оценить значимость каждого фактора.  | ||
| + | ::: построить функцию, по внешним параметрам самки предсказывающую, будет ли у неё хотя бы один спутник. Оценить значимость каждого фактора.  | ||
| + | |||
| + | ===Данные антропометрии===<!---body.xlsx--->  | ||
| + | [[Изображение:Antropometry.jpg|120px|thumb|Некоторые из измеренных характеристик скелета.]]  | ||
| + | Для 247 мужчин и 260 женщин измерены две группы антропометрических показателей – легко измеримые характеристики скелета и обхваты, всего 21 признак. Указаны возраст, пол, вес и рост.  | ||
| + | ::: построить функцию, эффективно оценивающую вес по наименьшему набору признаков; сравнить точность оценки веса при отсутствии информации по обхватам и отсутствии информации по характеристикам скелета.  | ||
| + | ::: построить функцию, оценивающую возраст по имеющимся признакам; сравнить эффективность оценки возраста при отсутствии информации по обхватам и отсутствии информации по характеристикам скелета.  | ||
| + | ::: построить функцию, оценивающую по наименьшему набору признаков вероятность того, что испытуемый — женщина, и доверительный интервал для этой вероятности.  | ||
| + | |||
| + | ===Диагностика заболеваний позвоночника===<!---spine.csv--->  | ||
| + | Для 310 испытуемых измерены: наклон и смещение таза, угол изгиба поясницы, наклон плоскости тазовой поверхности крестца, радиус таза, степень смещения позвонков. Каждый из испытуемых либо здоров, либо болен спондилолистезом или межпозвонковой грыжей.  | ||
| + | ::: построить функцию, предсказывающую вероятность наличия заболевания позвоночника, и доверительный интервал для неё.  | ||
| + | ::: построить функцию, предсказывающую вероятность наличия каждого из рассматриваемых заболеваний позвоночника, и доверительные интервалы для них.  | ||
| + | |||
| + | ===Ценообразование бриллиантов=== <!---diamonds.txt--->  | ||
| + | Имеются данные о цене и потребительских качествах 308 бриллиантов, продававшихся в Сингапуре в 2000 году. Известны: вес бриллианта в каратах, цвет (закодирован буквами латинского алфавита: наиболее чистый цвет — буквой D, менее чистые — буквами E, F, G и т.д., чем ближе к концу алфавита, тем "грязнее"), группа чистоты (отсутствие дефектов, профессиональная оценка, выдаваемая специалистами при исследовании бриллианта в лупу десятикратного увеличения; бриллианты без трещин и включений получают оценку IF ("internally flawless"), далее в порядке убывания чистоты следуют группы VVS1 и VVS2 ("very very slightly imperfect"), VS1 и VS2 ("very slightly imperfect"), название организации, выдавшей сертификат по группе чистоты (GIA — Gemmological Institute of America, IGI — International Gemmological Institute, HRD — Hoge Raad Voor Diamant), стоимость бриллианта в сингапурских долларах.  | ||
| + | ::: построить модель ценообразования бриллиантов, учитывая все особенности имеющихся данных  | ||
| + | ::: существует общепринятая система классификации бриллиантов на мелкие — до 0.29 карата, средние — от 0.30 до 0.99 карата и крупные — свыше 1 карата. Достаточно ли для предсказания цены знать о весе бриллианта только к какому классу он относится, или предсказания с использованием знаний о точном весе значимо лучше?  | ||
| + | |||
| + | ===Клетки опухолей груди===<!---breast cancer.xls--->  | ||
| + | [[Изображение:92_6682.gif|200px|thumb|Результат иммуногистохимического исследования пунктата злокачественной опухоли.]]  | ||
| + | 357 испытуемым с доброкачественными и 212 со злокачественными опухолями груди была сделана тонкоигольная аспирационная пункция с гистологическим исследованием пунктата. По полученным изображениям определялись следующие признаки опухолевых клеток: радиус, однородность текстуры, периметр, площадь, гладкость, компактность, степень вогнутости, доля вогнутых участков контура, симметричность, фрактальная размерность. Для каждого изображения были рассчитаны среднее значение каждого из этих признаков, стандартное отклонение и среднее по трём клеткам с максимальным значением признака.   | ||
| + | ::: оценить вероятность того, что опухоль злокачественная, по набору рассчитанных по изображению признаков. Построить функции, дающие точечную оценку и границы 95% доверительного интервала.  | ||
| + | |||
| + | ===Стоимость подержанных автомобилей=== <!---cars.xls--->  | ||
| + | Имеются данные о стоимости 804 подержанных автомобилей и их характеристиках: известны пробег, производитель, модель, вид модели, тип кузова, число цилиндров, объём двигателя, число дверей, а также наличие или отсутствие круиз контроля, продвинутой звуковой системы и кожаной обивки сидений.  | ||
| + | ::: построить модель стоимости автомобиля по данному набору признаков.  | ||
| + | |||
| + | === Вакцина против вируса папилломы человека ===   | ||
| + | Собраны данные по 1413 пациенткам клиник при университете Джона Хопкинса, проходившим с 2006 по 2008 вакцинацию против папилломавируса человека препаратом Гардасил. Рекомендуемый курс — три укола в течение года — был пройдён только 469 пациентками. Производитель препарата исследует, в каких демографических группах и каком способе получения вакцины проведение полного курса наиболее вероятно. <!---gardasil.xls --->  | ||
| + | ::: построить модель вероятности прохождения полного курса вакцинации в течение года, оценить вклад факторов.  | ||
| - | |||
| - | |||
| - | |||
| - | =  | + | = Ссылки =  | 
| - | + | * [[Статистический анализ данных (курс лекций, К.В.Воронцов)]]  | |
| - | :  | + | * [[Статистический анализ данных (курс лекций, К.В.Воронцов)/2014|Практические задания для студентов каф. ММП ВМК (2014 год)]]  | 
| - | + | * [[Участник:Riabenko|Контакты для отправки заданий]]  | |
| + | <references/>  | ||
| - | + | [[Категория:Учебные курсы]]  | |
| - | + | ||
| - | :  | + | |
Версия 17:14, 11 ноября 2014
Надёжность шарикоподшипников
Мерой надёжности шарикоподшипников служит величина  — максимальное число оборотов, которое выдерживает 90% одинаковых подшипников. Имеются данные измерений надёжности по шарикоподшипникам трёх производителей (для одного из производителей исследовано три вида подшипников), для каждого испытания указаны диаметр и число шаров в подшипнике, нагрузка и величина 
.
-  построить функцию, оценивающую 
по имеющимся признакам, рассчитать точность оценки.
 
-  построить функцию, оценивающую 
 
Эффективность тромболитической терапии
Собраны данные по 206 пациентам второго кардиологического отделения московской городской клинической больницы №25. Имеются результаты 14 анализов, а также 8 дополнительных признаков, описывающих пациента (пол, возраст, курение, наличие диабета и т.д.)
- построить функцию, оценивающую вероятность выздоровления пациента в результате тромболитической терапии по приведённым 22 признакам.
 - построить функцию, оценивающую вероятность возникновения осложнений у пациента в результате тромболитической терапии по приведённым 22 признакам.
 
Лесные пожары в парке Монтезинью
Данные собраны в 2001-2003 годах в португальском природном парке Монтезинью. Известны: месяц и день недели, температура воздуха, относительная влажность, скорость ветра, число выпавших осадков, значения четырёх метеорологических индексов, координаты зоны, в которой были произведены эти измерения (см. рис.), а также площадь леса, уничтоженного произошедшим в этот день пожаром (если он был).
- построить модель, позволяющую оценить по рассматриваемым признакам вероятность пожара и доверительный интервал для неё.
 
Солнечная активность
Имеется 1066 наблюдений над различными участками поверхности Солнца. Известны: класс участка, размер максимального пятна на участке, распределение пятен, относительная активность, тип эволюции участка, код активности в предыдущие 24 часа, площадь участка. Известны также сложность участка в наблюдавшемся прошлом и при последнем повороте вокруг Солнца. Известно также число вспышек на каждом участке в течение 24 часов после начала наблюдения, причём вспышки разделены на три категории по мощности.
- построить модель, по свойствам участка предсказывающую суммарную вероятность возникновения вспышек любого типа и доверительный интервал для неё.
 - построить модель, по свойствам участка предсказывающую суммарное число вспышек любого типа в последующие 24 часа, дать интерпретацию коэффициентов.
 
Преступность и демографические характеристики
Данные собраны из переписи населения США 1990 года, отчёта ФБР о преступности за 1995 год и опроса сотрудников полиции LEMAS за 1990 год. По 2215 округам собрана статистика преступлений и 125 демографических показателей.
- построить функцию, оценивающую число поджогов на сто тысяч населения по демографическим показателям, дать интерпретацию коэффициентов модели.
 - построить функцию, оценивающую абсолютное число автомобильных краж по демографическим показателям, дать интерпретацию коэффициентов модели.
 - построить функцию, оценивающую число ненасильственных преступлений на сто тысяч населения по демографическим показателям, дать интерпретацию коэффициентов модели.
 
Линька крабов
У 472 самок metacarcinus magister измерена ширина панциря до и после линьки. Часть особей проживала в лаборатории, часть — в естественной среде обитания; для последних известен также год вылова.
- построить модель изменения размеров панциря с учётом всех факторов.
 
Пожертвования на благотворительность
Благотворительная организация разослала 4268 писем с предложением сделать пожертвование и получила отклик с пожертвованиями от 1707 адресатов. Для каждого адресата известны: индикатор ответа на предыдущее письмо, число недель, прошедших с момента предыдущего пожертвования, размеры текущего, предыдущего и среднего по всем предыдущим пожертвованиям в голландских гульденах, число писем, отправляемых адресату в год, доля писем, в ответ на которые приходят пожертвования.
- построить функцию, оценивающую вероятность получения пожертвования от адресата по историческим данным.
 - построить функцию, оценивающую вероятный размер пожертвования от адресата по историческим данным.
 
Вкус португальского вина
Для 1599 образцов красного и 4898 белого португальского вина известны оценки (от 0 до 10), выставленные дегустаторами при слепом тестировании, а также значения одиннадцати биохимических показателей, полученных при лабораторном анализе.
- построить модель экспертной оценки по биохимическим характеристикам, оценить влияние содержания алкоголя на экспертную оценку.
 - построить функцию, оценивающую вероятность того, что вино, для которого известны биохимические характеристики и экспертная оценка, является красным, и доверительный интервал для неё. Оценить влияние экспертной оценки на эту вероятность.
 
Состав бетона
Для 103 образцов раствора бетона известно содержание в кубическом метре семи основных компонент, для каждого образца измерены также осадка, растекание и прочность на сжатие.
- построить функцию, оценивающую растекание бетона по его составу.
 - построить функцию, оценивающую прочность бетона на сжатие по всем имеющимся характеристикам, оценить вклад растекания и осадки.
 
Внешний вид и привлекательность самок мечехвостов
Изучалось влияние внешних характеристик самок морских ракообразных мечехвостов на их привлекательность для самцов. Выборка состоит из данных о наблюдениях над 173 особями и содержит закодированные данные о размере самок, их весе, цвете, состоянии панциря, а также о количестве спутников.
- построить функцию, по внешним параметрам самки предсказывающую количество спутников у самки. Оценить значимость каждого фактора.
 - построить функцию, по внешним параметрам самки предсказывающую, будет ли у неё хотя бы один спутник. Оценить значимость каждого фактора.
 
Данные антропометрии
Для 247 мужчин и 260 женщин измерены две группы антропометрических показателей – легко измеримые характеристики скелета и обхваты, всего 21 признак. Указаны возраст, пол, вес и рост.
- построить функцию, эффективно оценивающую вес по наименьшему набору признаков; сравнить точность оценки веса при отсутствии информации по обхватам и отсутствии информации по характеристикам скелета.
 - построить функцию, оценивающую возраст по имеющимся признакам; сравнить эффективность оценки возраста при отсутствии информации по обхватам и отсутствии информации по характеристикам скелета.
 - построить функцию, оценивающую по наименьшему набору признаков вероятность того, что испытуемый — женщина, и доверительный интервал для этой вероятности.
 
Диагностика заболеваний позвоночника
Для 310 испытуемых измерены: наклон и смещение таза, угол изгиба поясницы, наклон плоскости тазовой поверхности крестца, радиус таза, степень смещения позвонков. Каждый из испытуемых либо здоров, либо болен спондилолистезом или межпозвонковой грыжей.
- построить функцию, предсказывающую вероятность наличия заболевания позвоночника, и доверительный интервал для неё.
 - построить функцию, предсказывающую вероятность наличия каждого из рассматриваемых заболеваний позвоночника, и доверительные интервалы для них.
 
Ценообразование бриллиантов
Имеются данные о цене и потребительских качествах 308 бриллиантов, продававшихся в Сингапуре в 2000 году. Известны: вес бриллианта в каратах, цвет (закодирован буквами латинского алфавита: наиболее чистый цвет — буквой D, менее чистые — буквами E, F, G и т.д., чем ближе к концу алфавита, тем "грязнее"), группа чистоты (отсутствие дефектов, профессиональная оценка, выдаваемая специалистами при исследовании бриллианта в лупу десятикратного увеличения; бриллианты без трещин и включений получают оценку IF ("internally flawless"), далее в порядке убывания чистоты следуют группы VVS1 и VVS2 ("very very slightly imperfect"), VS1 и VS2 ("very slightly imperfect"), название организации, выдавшей сертификат по группе чистоты (GIA — Gemmological Institute of America, IGI — International Gemmological Institute, HRD — Hoge Raad Voor Diamant), стоимость бриллианта в сингапурских долларах.
- построить модель ценообразования бриллиантов, учитывая все особенности имеющихся данных
 - существует общепринятая система классификации бриллиантов на мелкие — до 0.29 карата, средние — от 0.30 до 0.99 карата и крупные — свыше 1 карата. Достаточно ли для предсказания цены знать о весе бриллианта только к какому классу он относится, или предсказания с использованием знаний о точном весе значимо лучше?
 
Клетки опухолей груди
357 испытуемым с доброкачественными и 212 со злокачественными опухолями груди была сделана тонкоигольная аспирационная пункция с гистологическим исследованием пунктата. По полученным изображениям определялись следующие признаки опухолевых клеток: радиус, однородность текстуры, периметр, площадь, гладкость, компактность, степень вогнутости, доля вогнутых участков контура, симметричность, фрактальная размерность. Для каждого изображения были рассчитаны среднее значение каждого из этих признаков, стандартное отклонение и среднее по трём клеткам с максимальным значением признака.
- оценить вероятность того, что опухоль злокачественная, по набору рассчитанных по изображению признаков. Построить функции, дающие точечную оценку и границы 95% доверительного интервала.
 
Стоимость подержанных автомобилей
Имеются данные о стоимости 804 подержанных автомобилей и их характеристиках: известны пробег, производитель, модель, вид модели, тип кузова, число цилиндров, объём двигателя, число дверей, а также наличие или отсутствие круиз контроля, продвинутой звуковой системы и кожаной обивки сидений.
- построить модель стоимости автомобиля по данному набору признаков.
 
Вакцина против вируса папилломы человека
Собраны данные по 1413 пациенткам клиник при университете Джона Хопкинса, проходившим с 2006 по 2008 вакцинацию против папилломавируса человека препаратом Гардасил. Рекомендуемый курс — три укола в течение года — был пройдён только 469 пациентками. Производитель препарата исследует, в каких демографических группах и каком способе получения вакцины проведение полного курса наиболее вероятно.
- построить модель вероятности прохождения полного курса вакцинации в течение года, оценить вклад факторов.
 

