Теория Валианта
Материал из MachineLearning.
 (дополнение)  | 
				 (→Основные понятия:  дополнение)  | 
			||
| Строка 7: | Строка 7: | ||
== Вероятно почти корректное обучение ==  | == Вероятно почти корректное обучение ==  | ||
===Основные понятия ===  | ===Основные понятия ===  | ||
| - | * Обучаемый (learner)  | + | * Обучаемый (learner) — объект, участвующий в процессе обучения. В данном контексте обучаемый — алгоритм.  | 
| - | *   | + | * Объекты на которых выполняется обучение назовём примерами. Поскольку нам будет важна вычислительная сложность, будем считать, что примеры задаются некоторым описанием — булевым вектором.  | 
| - | *   | + | * <tex>X_n</tex> — множество примеров с описанием длины n.  | 
| - | * Концепция(concept)  | + | * <tex>X = \bigcup_{n \geq 1} X_n</tex> — пространство примеров (instance space), множество всех возможных примеров.  | 
| - | *   | + | * <tex>D: X_n \rightarrow [0,1]</tex> — (неизвестное) вероятностное распределение на пространстве примеров. x ~ D — означает, что x - случайная величина с распределением D.  | 
| - | * Гипотеза  | + | * Каждый пример имеет одну пометку, для простоты будем  считать, что множество пометок состоит из двух элементов: {0,1}. Концепция(concept) — это функция, отображающая примеры на пометки. <tex>F = \bigcup_{n \geq 1} F_n</tex> — семейство концепций, подмножество множества всех булевых функций, определенных на множестве X.  | 
| - | * Ошибка гипотезы  | + | * <tex>f \in F_n</tex> — целевая концепция: то, что мы ищем в процессе обучения.  | 
| - | + | * Гипотеза h — некоторая булева функция на множестве <tex>X_n</tex>, которую выдает обучаемый. Гипотеза является предсказанием целевой концепции.  | |
| + | * Ошибка гипотезы. <tex>err_{f,D}(h)</tex> — вероятность того, что гипотеза h не совпадает с целевой концепцией f на случайном значении x ~ D: <tex>err_{f,D}(h) = Pr_{x \sim D}[f(x) \neq h(x)]</tex>.  | ||
=== Пример ===  | === Пример ===  | ||
Версия 21:17, 1 января 2010
|   |  Данная статья является непроверенным учебным заданием.
 До указанного срока статья не должна редактироваться другими участниками проекта MachineLearning.ru. По его окончании любой участник вправе исправить данную статью по своему усмотрению и удалить данное предупреждение, выводимое с помощью шаблона {{Задание}}. См. также методические указания по использованию Ресурса MachineLearning.ru в учебном процессе.  | 
Теория вероятно почти корректного обучения (теория Валианта, probably approximately correct, PAC-learning) — теория, предложенная Лесли Валиантом в 1984 году для математического анализа машинного обучения. Работа Валианта акцентирует внимание на том, что проблематика вычислительного обучения тесно связана также и с вопросам вычислительной сложности алгоритмов.
В теории вероятно почти корректного обучения обучаемый (learner) получает некоторый набор примеров и должен выбрать некоторую функцию (гипотезу) из определенного класса функций. Цель обучаемого состоит в том, чтобы с высокой вероятностью выбранная функция была, в некотором смысле, «похожа» на истинную гипотезу. Обучаемый должен быть эффективным (то есть использовать в процессе работы приемлемое количество вычислительных ресурсов).
Содержание | 
Вероятно почти корректное обучение
Основные понятия
- Обучаемый (learner) — объект, участвующий в процессе обучения. В данном контексте обучаемый — алгоритм.
 - Объекты на которых выполняется обучение назовём примерами. Поскольку нам будет важна вычислительная сложность, будем считать, что примеры задаются некоторым описанием — булевым вектором.
 -  
— множество примеров с описанием длины n.
 -  
— пространство примеров (instance space), множество всех возможных примеров.
 -  
— (неизвестное) вероятностное распределение на пространстве примеров. x ~ D — означает, что x - случайная величина с распределением D.
 -  Каждый пример имеет одну пометку, для простоты будем  считать, что множество пометок состоит из двух элементов: {0,1}. Концепция(concept) — это функция, отображающая примеры на пометки. 
— семейство концепций, подмножество множества всех булевых функций, определенных на множестве X.
 -  
— целевая концепция: то, что мы ищем в процессе обучения.
 -  Гипотеза h — некоторая булева функция на множестве 
, которую выдает обучаемый. Гипотеза является предсказанием целевой концепции.
 -  Ошибка гипотезы. 
— вероятность того, что гипотеза h не совпадает с целевой концепцией f на случайном значении x ~ D:
.
 
Пример
Объем обучающей выборки (Sample complexity)
Определение, теоремы
Вычислительная сложность обучения
Связь PAC-learning с классами сложности (), математической криптографией (односторонние функции, криптосистемы)
Ссылки
- Valiant L.G. A theory of the learnable // Communications of the ACM. — 1984 T. 27. — С. 1134-1142.
 

