Обучение с подкреплением
Материал из MachineLearning.
 (Новая: '''Обучение с подкреплением''', идея которого была почерпнута в смежной области психологии, является по...)  | 
				|||
| Строка 3: | Строка 3: | ||
В экономике и теории игр обчение с подкреплением рассматривается в качестве интерпретации того, как может установиться равновесие.  | В экономике и теории игр обчение с подкреплением рассматривается в качестве интерпретации того, как может установиться равновесие.  | ||
| - | Окружение обычно формулируется как   | + | Окружение обычно формулируется как [http://en.wikipedia.org/wiki/Markov_decision_process марковский процесс принятия решений] (МППР) с конечным множеством состояний, и в этом смысле алгоритмы обучения с подкреплением тесно связаны с динамическим программированием.  | 
Вероятнности выигрышей и перехода состояний в МППР обычно являются величинами случайными, но стационарными в рамках задачи.  | Вероятнности выигрышей и перехода состояний в МППР обычно являются величинами случайными, но стационарными в рамках задачи.  | ||
Продолжение следует...  | Продолжение следует...  | ||
{{UnderConstruction|[[Участник:Дорофеев Н.Ю.|Дорофеев Н.Ю.]] 12:31, 5 ноября 2008 (MSK)}}  | {{UnderConstruction|[[Участник:Дорофеев Н.Ю.|Дорофеев Н.Ю.]] 12:31, 5 ноября 2008 (MSK)}}  | ||
Версия 09:32, 5 ноября 2008
Обучение с подкреплением, идея которого была почерпнута в смежной области психологии, является подразделом машинного обучения, изучающим, как агент должен действовать в окружении, чтобы максимизировать некоторый долговременный выигрыш. Алгоритмы с частичным обучением пытаются найти стратегию, приписывающую состояниям окружающей среды действия, которые должен предпринять агент в этих состояниях. В экономике и теории игр обчение с подкреплением рассматривается в качестве интерпретации того, как может установиться равновесие.
Окружение обычно формулируется как марковский процесс принятия решений (МППР) с конечным множеством состояний, и в этом смысле алгоритмы обучения с подкреплением тесно связаны с динамическим программированием. Вероятнности выигрышей и перехода состояний в МППР обычно являются величинами случайными, но стационарными в рамках задачи.
Продолжение следует...
|   |  Статья в настоящий момент дорабатывается. Дорофеев Н.Ю. 12:31, 5 ноября 2008 (MSK)  | 

