Обучение с подкреплением
Материал из MachineLearning.
| Строка 1: | Строка 1: | ||
| + | {{TOCright}}  | ||
'''Обучение с подкреплением''', идея которого была почерпнута в смежной области психологии, является подразделом [[машинное обучение|машинного обучения]], изучающим, как ''агент'' должен ''действовать'' в ''окружении'', чтобы максимизировать некоторый долговременный ''выигрыш''.  | '''Обучение с подкреплением''', идея которого была почерпнута в смежной области психологии, является подразделом [[машинное обучение|машинного обучения]], изучающим, как ''агент'' должен ''действовать'' в ''окружении'', чтобы максимизировать некоторый долговременный ''выигрыш''.  | ||
Алгоритмы с частичным обучением пытаются найти ''стратегию'', приписывающую ''состояниям'' окружающей среды действия, которые должен предпринять агент в этих состояниях.  | Алгоритмы с частичным обучением пытаются найти ''стратегию'', приписывающую ''состояниям'' окружающей среды действия, которые должен предпринять агент в этих состояниях.  | ||
| Строка 6: | Строка 7: | ||
Вероятнности выигрышей и перехода состояний в МППР обычно являются величинами случайными, но стационарными в рамках задачи.  | Вероятнности выигрышей и перехода состояний в МППР обычно являются величинами случайными, но стационарными в рамках задачи.  | ||
| - | При обучении с подкреплением, в отличии от [[обучение с учителем|обучения с учителем]],не предоставляются верные пары „входные данные-ответ“, а   | + | При обучении с подкреплением, в отличии от [[обучение с учителем|обучения с учителем]],не предоставляются верные пары „входные данные-ответ“, а принятие субоптимальнх решений (дающих локальный экстремум) не ограничивается явно.  | 
| + | Обучение с подкреплением пытается найти компромис между исследованием неизученных областей и применением имеющихся знаний.  | ||
| + | Баланс изучения-применения при обучении с подкреплением исследовался в задаче [http://en.wikipedia.org/wiki/Multi-armed_bandit многорукого бандита].  | ||
| + | |||
| + | Формально простейшая модель обучения с подкреплением состоит из:  | ||
| + | # множества состояний окружения  <i>S</i>;  | ||
| + | # множества действий <i>A</i>;  | ||
| + | # множества вещественнозначных скалярных „выигрышей“.  | ||
| + | |||
| + | В произвольный момент времени <i>t</i> агент характеризуется состоянием <tex>s_t \in S</tex> и множеством возможных действий <tex>A(s_t)</tex>.  | ||
| + | Выбирая действие <tex>a \in A(s_t)</tex>, он переходит в состояние <tex>s_{t+1}</tex> и получает выигрыш <tex>r_{t+1}</tex>.  | ||
| + | Основываясь на таком взаимодействии с окружающей средой, агент, обучающийся с подкреплением, должен выработать стратегию <tex>\pi : S \to A</tex>, которая максимизирует величину <tex>R=r_0+r_1+\cdots+r_n</tex> в случае МППР, имеющей терминальное состояние, или величину <br /> ::<tex>R=\sum_t \gamma^t r_t</tex>  <br /> для МППР без терминальных состояний (где <tex>0 \leq 1</tex> —- дисконтирующий множитель для „предстоящего выигрыша“).  | ||
| + | |||
| + | Таким образом, обучение с подкреплением особенно хорошо подходит для решения задач, связанных с выбором между долгосрочной и краткосрочной выгодой. Оно успешно применялось в различных задчах, таких как робототехника, упраление лифтами, телекоммуникации,шашки и нарды ([http://www.cs.ualberta.ca/~sutton/book/ebook/the-book.html Sutton 1998], Глава 11).  | ||
| + | |||
| + | == Алгоритмы ==  | ||
| + | |||
{{UnderConstruction|[[Участник:Дорофеев Н.Ю.|Дорофеев Н.Ю.]] 12:31, 5 ноября 2008 (MSK)}}  | {{UnderConstruction|[[Участник:Дорофеев Н.Ю.|Дорофеев Н.Ю.]] 12:31, 5 ноября 2008 (MSK)}}  | ||
Версия 13:24, 6 ноября 2008
 
  | 
Обучение с подкреплением, идея которого была почерпнута в смежной области психологии, является подразделом машинного обучения, изучающим, как агент должен действовать в окружении, чтобы максимизировать некоторый долговременный выигрыш. Алгоритмы с частичным обучением пытаются найти стратегию, приписывающую состояниям окружающей среды действия, которые должен предпринять агент в этих состояниях. В экономике и теории игр обчение с подкреплением рассматривается в качестве интерпретации того, как может установиться равновесие.
Окружение обычно формулируется как марковский процесс принятия решений (МППР) с конечным множеством состояний, и в этом смысле алгоритмы обучения с подкреплением тесно связаны с динамическим программированием. Вероятнности выигрышей и перехода состояний в МППР обычно являются величинами случайными, но стационарными в рамках задачи.
При обучении с подкреплением, в отличии от обучения с учителем,не предоставляются верные пары „входные данные-ответ“, а принятие субоптимальнх решений (дающих локальный экстремум) не ограничивается явно. Обучение с подкреплением пытается найти компромис между исследованием неизученных областей и применением имеющихся знаний. Баланс изучения-применения при обучении с подкреплением исследовался в задаче многорукого бандита.
Формально простейшая модель обучения с подкреплением состоит из:
- множества состояний окружения S;
 - множества действий A;
 - множества вещественнозначных скалярных „выигрышей“.
 
В произвольный момент времени t агент характеризуется состоянием  и множеством возможных действий 
.
Выбирая действие 
, он переходит в состояние 
 и получает выигрыш 
.
Основываясь на таком взаимодействии с окружающей средой, агент, обучающийся с подкреплением, должен выработать стратегию 
, которая максимизирует величину 
 в случае МППР, имеющей терминальное состояние, или величину 
 ::  
 для МППР без терминальных состояний (где  —- дисконтирующий множитель для „предстоящего выигрыша“).
Таким образом, обучение с подкреплением особенно хорошо подходит для решения задач, связанных с выбором между долгосрочной и краткосрочной выгодой. Оно успешно применялось в различных задчах, таких как робототехника, упраление лифтами, телекоммуникации,шашки и нарды (Sutton 1998, Глава 11).
Алгоритмы
|   |  Статья в настоящий момент дорабатывается. Дорофеев Н.Ю. 12:31, 5 ноября 2008 (MSK)  | 

