Обучение с подкреплением

Материал из MachineLearning.

(Различия между версиями)

Версия 09:32, 5 ноября 2008

Обучение с подкреплением, идея которого была почерпнута в смежной области психологии, является подразделом машинного обучения, изучающим, как агент должен действовать в окружении, чтобы максимизировать некоторый долговременный выигрыш. Алгоритмы с частичным обучением пытаются найти стратегию, приписывающую состояниям окружающей среды действия, которые должен предпринять агент в этих состояниях. В экономике и теории игр обчение с подкреплением рассматривается в качестве интерпретации того, как может установиться равновесие.

Окружение обычно формулируется как марковский процесс принятия решений (МППР) с конечным множеством состояний, и в этом смысле алгоритмы обучения с подкреплением тесно связаны с динамическим программированием. Вероятнности выигрышей и перехода состояний в МППР обычно являются величинами случайными, но стационарными в рамках задачи.

Продолжение следует...

Статья в настоящий момент дорабатывается.
Дорофеев Н.Ю. 12:31, 5 ноября 2008 (MSK)

Источник — «http://www.recognition.su/wiki/index.php?title=%D0%9E%D0%B1%D1%83%D1%87%D0%B5%D0%BD%D0%B8%D0%B5_%D1%81_%D0%BF%D0%BE%D0%B4%D0%BA%D1%80%D0%B5%D0%BF%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5%D0%BC»

@@ Строка 3: / Строка 3: @@
 В экономике и теории игр обчение с подкреплением рассматривается в качестве интерпретации того, как может установиться равновесие.
-Окружение обычно формулируется как [[http://en.wikipedia.org/wiki/Markov_decision_process марковский процесс принятия решений]] (МППР) с конечным множеством состояний, и в этом смысле алгоритмы обучения с подкреплением тесно связаны с динамическим программированием.
+Окружение обычно формулируется как [http://en.wikipedia.org/wiki/Markov_decision_process марковский процесс принятия решений] (МППР) с конечным множеством состояний, и в этом смысле алгоритмы обучения с подкреплением тесно связаны с динамическим программированием.
 Вероятнности выигрышей и перехода состояний в МППР обычно являются величинами случайными, но стационарными в рамках задачи.
 Продолжение следует...
 {{UnderConstruction|[[Участник:Дорофеев Н.Ю.|Дорофеев Н.Ю.]] 12:31, 5 ноября 2008 (MSK)}}

Обучение с подкреплением

Материал из MachineLearning.

Версия 09:32, 5 ноября 2008

Просмотры

Личные инструменты

Навигация

Поиск

Инструменты