Материал из MachineLearning.
			
												
			
Similarity Miner — учебный студенческий проект,
программа для решения задач классификации на основе обучаемых функций сходства. 
  Базовые требования 
-  Исходными данными является матрица объекты–признаки. Решается задача классификации на два класса.
 -  Для классификации используется метод ближайших соседей. Число соседей и вид ядра должны подбираться автоматически. 
 -  Основная задача — найти метрики (функции сходства объектов, similarity functions), во-первых, обладающие хорошим качеством классификации; во-вторых, хорошо интерпретируемые, то есть зависящие от небольшого числа признаков. 
 -  Метрика — взвешенная евклидова. Веса признаков в метрике должны настраиваться автоматически. 
 -  Процесс подбора метрики может происходить как полностью автоматически, так и под контролем пользователя.
 
  Пример. Выборка и разделяющая кривая.
  
-  С точки зрения пользователя процесс подбора метрики заключается в разглядывании серии графиков. Каждый график отображает выборку и разделяющую кривую; по осям могут откладываться как исходные признаки, так и новые, синтезированные программой. Графики позволяют увидеть задачу в различных разрезах и оценить, насколько улучшается качество классификации по мере добавления признаков в метрику. Ничего более сложного пользователю предлагать нельзя. 
 -  Программа сама должна отбирать и показывать пользователю только наиболее интересные графики. Пользователь должен иметь возможность «забраковать» метрику, если график ему «не нравится» или если он считает сочетание признаков в данной метрике неинтерпретируемым. 
 
  Идеи синтеза признаков 
-  Если уже есть kNN классификатор, то расстояние до разделяющей поверхности можно рассматривать как новый признак.
 
  Дополнительные требования 
-  Число классов может быть произвольно. Реализовать стратегию «каждый против всех».
 -  Число объектов может быть как маленьким (десятки), так и большим (миллионы). Реализовать отбор эталонных объектов. 
 -  Число признаков может быть как маленьким (единицы), так и большим (тысячи). Применить эвристики сокращения перебора.
 -  Должна автоматически строиться композиция из нескольких лучших kNN-классификаторов.
 -  Программа должна быть доступна в Интернет через веб-интерфейс. 
 
  Ссылки