Марковский процесс
Материал из MachineLearning.
(Новая: {{well|Статья написана с использованием LLM '''GPT-5.5 Thinking''' и проверена участником [[Участник:Andrei Blinov|Andrei Blinov]...) |
|||
| Строка 3: | Строка 3: | ||
'''Марковский процесс''' — это [[стохастический процесс]], для которого условное распределение будущего при известном настоящем не зависит от прошлого. Это свойство называется [[марковское свойство|марковским свойством]]. Неформально говорят, что процесс «не имеет памяти», если текущее состояние содержит всю информацию, необходимую для описания дальнейшей эволюции. | '''Марковский процесс''' — это [[стохастический процесс]], для которого условное распределение будущего при известном настоящем не зависит от прошлого. Это свойство называется [[марковское свойство|марковским свойством]]. Неформально говорят, что процесс «не имеет памяти», если текущее состояние содержит всю информацию, необходимую для описания дальнейшей эволюции. | ||
| - | Марковские процессы используются в | + | Марковские процессы используются в теории вероятностей, математической статистике, машинном обучении, анализе временных рядов, теории массового обслуживания и моделировании случайных динамических систем. |
== Определение == | == Определение == | ||
| - | Пусть <tex>{X_t}_{t\in T}</tex> — | + | Пусть <tex>{X_t}_{t\in T}</tex> — случайный процесс со значениями в пространстве состояний <tex>E</tex>. Процесс называется '''марковским''', если для любых моментов времени <tex>s<t</tex> условное распределение <tex>X_t</tex> при известной истории процесса до момента <tex>s</tex> зависит только от текущего состояния <tex>X_s</tex>. |
В дискретном времени это свойство записывается как | В дискретном времени это свойство записывается как | ||
| Строка 13: | Строка 13: | ||
:<tex>\mathbb{P}(X_{n+1}=x_{n+1}\mid X_n=x_n,\ldots,X_0=x_0)=\mathbb{P}(X_{n+1}=x_{n+1}\mid X_n=x_n).</tex> | :<tex>\mathbb{P}(X_{n+1}=x_{n+1}\mid X_n=x_n,\ldots,X_0=x_0)=\mathbb{P}(X_{n+1}=x_{n+1}\mid X_n=x_n).</tex> | ||
| - | Для произвольного | + | Для произвольного множества <tex>B\subseteq E</tex>: |
:<tex>\mathbb{P}(X_{n+1}\in B\mid X_0,\ldots,X_n)=\mathbb{P}(X_{n+1}\in B\mid X_n).</tex> | :<tex>\mathbb{P}(X_{n+1}\in B\mid X_0,\ldots,X_n)=\mathbb{P}(X_{n+1}\in B\mid X_n).</tex> | ||
| - | Марковское свойство не означает независимости случайных величин <tex>X_0,X_1,\ldots</tex>. Оно означает | + | Марковское свойство не означает независимости случайных величин <tex>X_0,X_1,\ldots</tex>. Оно означает только условную независимость будущего от прошлого при известном настоящем. |
== Переходные вероятности == | == Переходные вероятности == | ||
| - | Основным объектом, задающим марковский процесс, является [[переходная функция]] или | + | Основным объектом, задающим марковский процесс, является [[переходная функция]] или переходное ядро. В дискретном времени переходная вероятность имеет вид |
:<tex>P(x,B)=\mathbb{P}(X_{n+1}\in B\mid X_n=x).</tex> | :<tex>P(x,B)=\mathbb{P}(X_{n+1}\in B\mid X_n=x).</tex> | ||
| - | Если пространство состояний конечно, <tex>E={1,\ldots,m}</tex>, то переходы задаются | + | Если пространство состояний конечно, <tex>E={1,\ldots,m}</tex>, то переходы задаются матрицей переходных вероятностей |
:<tex>P_{ij}=\mathbb{P}(X_{n+1}=j\mid X_n=i),\quad i,j\in E.</tex> | :<tex>P_{ij}=\mathbb{P}(X_{n+1}=j\mid X_n=i),\quad i,j\in E.</tex> | ||
| Строка 59: | Строка 59: | ||
== Цепь Маркова == | == Цепь Маркова == | ||
| - | '''[[Цепь Маркова]]''' — частный случай марковского процесса с дискретным временем. Если пространство состояний конечно или счётно, | + | '''[[Цепь Маркова]]''' — частный случай марковского процесса с дискретным временем. Если пространство состояний конечно или счётно, переходы обычно описываются матрицей переходных вероятностей |
| - | + | :<tex>P_{ij}=\mathbb{P}(X_{n+1}=j\mid X_n=i).</tex> | |
| - | + | Подробно свойства цепей Маркова, включая классификацию состояний, периодичность, стационарные распределения и сходимость, рассматриваются в отдельной статье [[Цепь Маркова]]. | |
| - | + | ||
| - | + | ||
== Марковские процессы в непрерывном времени == | == Марковские процессы в непрерывном времени == | ||
| - | Если множество моментов времени непрерывно, например <tex>T=[0,\infty)</tex>, говорят о | + | Если множество моментов времени непрерывно, например <tex>T=[0,\infty)</tex>, говорят о марковском процессе в непрерывном времени. |
| - | Для конечного пространства состояний такой процесс часто задаётся | + | Для конечного пространства состояний такой процесс часто задаётся инфинитезимальным генератором <tex>Q=(q_{ij})</tex>, где |
:<tex>q_{ij}\geq 0,\quad i\neq j,\qquad q_{ii}=-\sum_{j\neq i}q_{ij}.</tex> | :<tex>q_{ij}\geq 0,\quad i\neq j,\qquad q_{ii}=-\sum_{j\neq i}q_{ij}.</tex> | ||
| Строка 79: | Строка 77: | ||
:<tex>P_t=e^{tQ}.</tex> | :<tex>P_t=e^{tQ}.</tex> | ||
| - | Если <tex>\mu_t</tex> — распределение процесса в момент <tex>t</tex>, то для конечной непрерывновременной цепи выполняется прямое | + | Если <tex>\mu_t</tex> — распределение процесса в момент <tex>t</tex>, то для конечной непрерывновременной цепи выполняется прямое уравнение Колмогорова |
:<tex>\frac{d\mu_t}{dt}=\mu_t Q.</tex> | :<tex>\frac{d\mu_t}{dt}=\mu_t Q.</tex> | ||
| Строка 93: | Строка 91: | ||
:<tex>\pi_j=\sum_i \pi_iP_{ij},\qquad \sum_j\pi_j=1,\qquad \pi_j\geq 0.</tex> | :<tex>\pi_j=\sum_i \pi_iP_{ij},\qquad \sum_j\pi_j=1,\qquad \pi_j\geq 0.</tex> | ||
| - | Если | + | Если процесс запущен из стационарного распределения, то распределение <tex>X_n</tex> остаётся равным <tex>\pi</tex> для всех <tex>n</tex>. |
Для непрерывновременной конечной цепи стационарное распределение удовлетворяет | Для непрерывновременной конечной цепи стационарное распределение удовлетворяет | ||
| Строка 99: | Строка 97: | ||
:<tex>\pi Q=0.</tex> | :<tex>\pi Q=0.</tex> | ||
| - | Стационарное распределение важно в | + | Стационарное распределение важно в методах сэмплирования, где марковская цепь строится так, чтобы её предельное распределение совпадало с заданным целевым распределением. |
| - | == | + | == Долгосрочное поведение == |
| - | + | Долгосрочное поведение марковского процесса зависит от структуры переходов. Для конечных цепей Маркова обычно рассматривают достижимость состояний, неприводимость, рекуррентность, периодичность и апериодичность. | |
| - | + | Для конечной неприводимой и апериодической цепи существует единственное стационарное распределение <tex>\pi</tex>, и распределение цепи сходится к нему: | |
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
:<tex>\mu_0P^n\to\pi,\qquad n\to\infty.</tex> | :<tex>\mu_0P^n\to\pi,\qquad n\to\infty.</tex> | ||
| - | Сходимость может нарушаться, если цепь периодична или пространство состояний бесконечно и не выполнены дополнительные условия положительной рекуррентности. | + | Сходимость может нарушаться, если цепь периодична или если пространство состояний бесконечно и не выполнены дополнительные условия положительной рекуррентности. |
| - | + | Цепь Маркова называется обратимой относительно распределения <tex>\pi</tex>, если выполнено условие детального баланса | |
| - | + | ||
| - | Цепь Маркова называется | + | |
:<tex>\pi_iP_{ij}=\pi_jP_{ji}.</tex> | :<tex>\pi_iP_{ij}=\pi_jP_{ji}.</tex> | ||
| - | Из детального баланса следует стационарность распределения <tex>\pi</tex>. Это условие часто используется при построении | + | Из детального баланса следует стационарность распределения <tex>\pi</tex>. Это условие часто используется при построении алгоритмов MCMC. |
== Сильное марковское свойство == | == Сильное марковское свойство == | ||
| - | + | Сильное марковское свойство распространяет марковское свойство с фиксированных моментов времени на случайные моменты, называемые моментами остановки. Смысл свойства состоит в том, что после такого момента процесс, условно на текущем состоянии, развивается как новый марковский процесс и не зависит от предыдущей траектории. | |
| - | + | Это свойство используется при изучении времён достижения, случайных блужданий, диффузионных процессов и задач оптимальной остановки. | |
== Примеры == | == Примеры == | ||
| Строка 151: | Строка 125: | ||
=== Случайное блуждание === | === Случайное блуждание === | ||
| - | + | Случайное блуждание — один из простейших примеров цепи Маркова. В одномерном случае процесс на <tex>\mathbb{Z}</tex> может задаваться переходами | |
:<tex>\mathbb{P}(X_{n+1}=X_n+1)=p,\qquad \mathbb{P}(X_{n+1}=X_n-1)=1-p.</tex> | :<tex>\mathbb{P}(X_{n+1}=X_n+1)=p,\qquad \mathbb{P}(X_{n+1}=X_n-1)=1-p.</tex> | ||
| - | Случайные блуждания применяются в | + | Случайные блуждания применяются в теории графов, моделировании диффузии, спектральной кластеризации и алгоритмах ранжирования. |
=== Пуассоновский процесс === | === Пуассоновский процесс === | ||
| - | + | Пуассоновский процесс с интенсивностью <tex>\lambda</tex> — марковский процесс в непрерывном времени на множестве <tex>\mathbb{N}</tex>. Если <tex>X_t</tex> — число событий к моменту <tex>t</tex>, то переходы возможны только из <tex>n</tex> в <tex>n+1</tex>. Его генератор имеет вид | |
:<tex>q_{n,n+1}=\lambda,\qquad q_{nn}=-\lambda.</tex> | :<tex>q_{n,n+1}=\lambda,\qquad q_{nn}=-\lambda.</tex> | ||
| Строка 165: | Строка 139: | ||
=== Процесс рождения и гибели === | === Процесс рождения и гибели === | ||
| - | + | Процесс рождения и гибели — непрерывновременная цепь Маркова на <tex>\mathbb{N}</tex>, в которой переходы возможны только между соседними состояниями: | |
:<tex>n\to n+1,\qquad n\to n-1.</tex> | :<tex>n\to n+1,\qquad n\to n-1.</tex> | ||
| - | Такие процессы применяются в | + | Такие процессы применяются в теории массового обслуживания, популяционной динамике и моделировании очередей. |
=== Винеровский процесс === | === Винеровский процесс === | ||
| - | + | Винеровский процесс, или броуновское движение, — марковский процесс с непрерывными траекториями и независимыми приращениями. Он является базовой моделью для диффузионных процессов и стохастических дифференциальных уравнений. | |
== Марковские процессы в машинном обучении == | == Марковские процессы в машинном обучении == | ||
| Строка 181: | Строка 155: | ||
[[Скрытая марковская модель]] — это вероятностная модель, в которой скрытые состояния <tex>Z_1,\ldots,Z_T</tex> образуют цепь Маркова, а наблюдения <tex>X_1,\ldots,X_T</tex> зависят от текущих скрытых состояний. Типичная факторизация совместного распределения имеет вид | [[Скрытая марковская модель]] — это вероятностная модель, в которой скрытые состояния <tex>Z_1,\ldots,Z_T</tex> образуют цепь Маркова, а наблюдения <tex>X_1,\ldots,X_T</tex> зависят от текущих скрытых состояний. Типичная факторизация совместного распределения имеет вид | ||
| - | :<tex>p(z_{1 | + | :<tex>p(z_{1},x_{1})=p(z_1)p(x_1\mid z_1)\prod_{t=2}^T p(z_t\mid z_{t-1})p(x_t\mid z_t).</tex> |
| - | + | ||
| - | + | ||
| - | + | Основные алгоритмы для скрытых марковских моделей: алгоритм Витерби, алгоритм прямого-обратного хода и алгоритм Баума — Велша. | |
| - | + | ||
| - | + | ||
=== Марковские процессы принятия решений === | === Марковские процессы принятия решений === | ||
| Строка 201: | Строка 171: | ||
где <tex>S</tex> — множество состояний, <tex>A</tex> — множество действий, <tex>P</tex> — переходная функция, <tex>R</tex> — функция награды, <tex>\gamma</tex> — коэффициент дисконтирования. | где <tex>S</tex> — множество состояний, <tex>A</tex> — множество действий, <tex>P</tex> — переходная функция, <tex>R</tex> — функция награды, <tex>\gamma</tex> — коэффициент дисконтирования. | ||
| - | Если | + | Если политика <tex>\pi(a\mid s)</tex> фиксирована, то MDP индуцирует марковский процесс по состояниям. Теория MDP лежит в основе [[обучение с подкреплением|обучения с подкреплением]] и динамического программирования. |
=== MCMC === | === MCMC === | ||
| - | [[Метод Монте-Карло по схеме марковских цепей]] строит цепь Маркова, стационарным распределением которой является заданное целевое распределение <tex>\pi(x)</tex>. После начального участка траектории, называемого | + | [[Метод Монте-Карло по схеме марковских цепей]] строит цепь Маркова, стационарным распределением которой является заданное целевое распределение <tex>\pi(x)</tex>. После начального участка траектории, называемого burn-in, состояния цепи используются как зависимая выборка из <tex>\pi</tex>. |
| - | В | + | В алгоритме Метрополиса — Гастингса из текущего состояния <tex>x</tex> предлагается новое состояние <tex>y\sim q(y\mid x)</tex>, которое принимается с вероятностью |
:<tex>\alpha(x,y)=\min\left{1,\frac{\pi(y)q(x\mid y)}{\pi(x)q(y\mid x)}\right}.</tex> | :<tex>\alpha(x,y)=\min\left{1,\frac{\pi(y)q(x\mid y)}{\pi(x)q(y\mid x)}\right}.</tex> | ||
| - | Целевое распределение <tex>\pi</tex> достаточно знать с точностью до нормировочной константы, что делает MCMC удобным инструментом | + | Целевое распределение <tex>\pi</tex> достаточно знать с точностью до нормировочной константы, что делает MCMC удобным инструментом байесовского вывода. |
=== Марковские модели последовательностей === | === Марковские модели последовательностей === | ||
| - | Марковское предположение часто применяется к | + | Марковское предположение часто применяется к временным рядам и последовательностям. Модель первого порядка задаётся факторизацией |
| - | :<tex>p(x_{1 | + | :<tex>p(x_{1})=p(x_1)\prod_{t=2}^T p(x_t\mid x_{t-1}).</tex> |
Модель порядка <tex>k</tex> предполагает, что | Модель порядка <tex>k</tex> предполагает, что | ||
| Строка 229: | Строка 199: | ||
== Оценивание параметров == | == Оценивание параметров == | ||
| - | Для конечной однородной цепи Маркова параметры матрицы переходов можно оценить по наблюдаемой траектории. Пусть <tex>N_{ij}</tex> — число наблюдавшихся переходов из состояния <tex>i</tex> в состояние <tex>j</tex>. Тогда | + | Для конечной однородной цепи Маркова параметры матрицы переходов можно оценить по наблюдаемой траектории. Пусть <tex>N_{ij}</tex> — число наблюдавшихся переходов из состояния <tex>i</tex> в состояние <tex>j</tex>. Тогда оценка максимального правдоподобия имеет вид |
:<tex>\widehat P_{ij}=\frac{N_{ij}}{\sum_k N_{ik}}.</tex> | :<tex>\widehat P_{ij}=\frac{N_{ij}}{\sum_k N_{ik}}.</tex> | ||
| - | Если некоторые переходы не наблюдались, применяют сглаживание. Например, при | + | Если некоторые переходы не наблюдались, применяют сглаживание. Например, при априорном распределении Дирихле можно использовать апостериорное среднее |
:<tex>\widehat P_{ij}=\frac{N_{ij}+\alpha_{ij}}{\sum_k(N_{ik}+\alpha_{ik})}.</tex> | :<tex>\widehat P_{ij}=\frac{N_{ij}+\alpha_{ij}}{\sum_k(N_{ik}+\alpha_{ik})}.</tex> | ||
| - | В | + | В скрытых марковских моделях состояния не наблюдаются напрямую, поэтому параметры обычно оцениваются с помощью EM-алгоритма, вариационного вывода или MCMC. |
| - | == | + | == Замечания == |
| - | + | Марковское свойство зависит от выбора состояния. Если состояние содержит недостаточно информации о прошлом, наблюдаемый процесс может оказаться немарковским. | |
| - | + | Марковость не равна независимости. Соседние состояния процесса обычно зависимы. | |
| - | + | Стационарность и марковость — разные свойства. Марковский процесс может быть нестационарным. | |
| - | + | Наличие стационарного распределения не всегда означает сходимость к нему из любого начального состояния. | |
| - | + | В MCMC последовательные состояния зависимы, поэтому число итераций не совпадает с эффективным размером выборки. | |
== См. также == | == См. также == | ||
| - | * [[Стохастический процесс]] | + | *[[Стохастический процесс]] |
| - | * [[Цепь Маркова]] | + | *[[Цепь Маркова]] |
| - | * [[Скрытая марковская модель]] | + | *[[Скрытая марковская модель]] |
| - | * [[Марковский процесс принятия решений]] | + | *[[Марковский процесс принятия решений]] |
| - | * [[Метод Монте-Карло по схеме марковских цепей]] | + | *[[Метод Монте-Карло по схеме марковских цепей]] |
| - | * [[Обучение с подкреплением]] | + | *[[Обучение с подкреплением]] |
== Литература == | == Литература == | ||
| - | * Markov A. A. Extension of the law of large numbers to quantities, depending on each other. — 1906. | + | *Markov A. A. Extension of the law of large numbers to quantities, depending on each other. — 1906. |
| - | * Norris J. R. Markov Chains. — Cambridge University Press, 1997. | + | *Norris J. R. Markov Chains. — Cambridge University Press, 1997. |
| - | * Levin D. A., Peres Y., Wilmer E. L. Markov Chains and Mixing Times. — American Mathematical Society, 2009; 2nd ed., 2017. | + | *Levin D. A., Peres Y., Wilmer E. L. Markov Chains and Mixing Times. — American Mathematical Society, 2009; 2nd ed., 2017. |
| - | * Puterman M. L. Markov Decision Processes: Discrete Stochastic Dynamic Programming. — Wiley, 1994. | + | *Puterman M. L. Markov Decision Processes: Discrete Stochastic Dynamic Programming. — Wiley, 1994. |
| - | * Sutton R. S., Barto A. G. Reinforcement Learning: An Introduction. — 2nd ed. — MIT Press, 2018. | + | *Sutton R. S., Barto A. G. Reinforcement Learning: An Introduction. — 2nd ed. — MIT Press, 2018. |
| - | * Rabiner L. R. A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition // Proceedings of the IEEE. — 1989. | + | *Rabiner L. R. A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition // Proceedings of the IEEE. — 1989. |
| - | * Metropolis N., Rosenbluth A. W., Rosenbluth M. N., Teller A. H., Teller E. Equation of State Calculations by Fast Computing Machines // Journal of Chemical Physics. — 1953. | + | *Metropolis N., Rosenbluth A. W., Rosenbluth M. N., Teller A. H., Teller E. Equation of State Calculations by Fast Computing Machines // Journal of Chemical Physics. — 1953. |
| - | * Hastings W. K. Monte Carlo Sampling Methods Using Markov Chains and Their Applications // Biometrika. — 1970. | + | *Hastings W. K. Monte Carlo Sampling Methods Using Markov Chains and Their Applications // Biometrika. — 1970. |
== Ссылки == | == Ссылки == | ||
| - | * [https://encyclopediaofmath.org/wiki/Transition_function Transition function] — Encyclopedia of Mathematics. | + | *[https://encyclopediaofmath.org/wiki/Transition_function Transition function] — Encyclopedia of Mathematics. |
| - | * [https://ocw.mit.edu/courses/6-041-probabilistic-systems-analysis-and-applied-probability-fall-2010/resources/lecture-16-markov-chains-i/ Markov Chains I] — MIT OpenCourseWare. | + | *[https://ocw.mit.edu/courses/6-041-probabilistic-systems-analysis-and-applied-probability-fall-2010/resources/lecture-16-markov-chains-i/ Markov Chains I] — MIT OpenCourseWare. |
| - | * [https://pages.uoregon.edu/dlevin/MARKOV/markovmixing.pdf Markov Chains and Mixing Times] — электронная версия книги Levin, Peres, Wilmer. | + | *[https://pages.uoregon.edu/dlevin/MARKOV/markovmixing.pdf Markov Chains and Mixing Times] — электронная версия книги Levin, Peres, Wilmer. |
| - | * [https://incompleteideas.net/book/the-book-2nd.html Reinforcement Learning: An Introduction] — страница книги Sutton, Barto. | + | *[https://incompleteideas.net/book/the-book-2nd.html Reinforcement Learning: An Introduction] — страница книги Sutton, Barto. |
| - | * [https://www.cs.ubc.ca/~murphyk/Bayes/rabiner.pdf A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition] — Rabiner, 1989. | + | *[https://www.cs.ubc.ca/~murphyk/Bayes/rabiner.pdf A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition] — Rabiner, 1989. |
[[Категория:Теория вероятностей]] | [[Категория:Теория вероятностей]] | ||
Текущая версия
| | Статья написана с использованием LLM GPT-5.5 Thinking и проверена участником Andrei Blinov 18:09, 28 июня 2026 (MSD) |
Марковский процесс — это стохастический процесс, для которого условное распределение будущего при известном настоящем не зависит от прошлого. Это свойство называется марковским свойством. Неформально говорят, что процесс «не имеет памяти», если текущее состояние содержит всю информацию, необходимую для описания дальнейшей эволюции.
Марковские процессы используются в теории вероятностей, математической статистике, машинном обучении, анализе временных рядов, теории массового обслуживания и моделировании случайных динамических систем.
Определение
Пусть — случайный процесс со значениями в пространстве состояний
. Процесс называется марковским, если для любых моментов времени
условное распределение
при известной истории процесса до момента
зависит только от текущего состояния
.
В дискретном времени это свойство записывается как
Для произвольного множества :
Марковское свойство не означает независимости случайных величин . Оно означает только условную независимость будущего от прошлого при известном настоящем.
Переходные вероятности
Основным объектом, задающим марковский процесс, является переходная функция или переходное ядро. В дискретном времени переходная вероятность имеет вид
Если пространство состояний конечно, , то переходы задаются матрицей переходных вероятностей
Элементы матрицы удовлетворяют условиям
Если начальное распределение задано строковым вектором , то распределение через
шагов равно
Элемент равен вероятности перейти из состояния
в состояние
за
шагов.
Однородные и неоднородные процессы
Марковский процесс называется однородным по времени, если вероятности перехода зависят только от длины временного интервала, но не от начального момента времени:
Если это условие не выполняется, процесс называется неоднородным по времени. В этом случае переходное ядро обычно записывают как
Для однородного марковского процесса переходные функции удовлетворяют уравнению Чепмена — Колмогорова
В конечном дискретном случае это уравнение сводится к умножению матриц:
Цепь Маркова
Цепь Маркова — частный случай марковского процесса с дискретным временем. Если пространство состояний конечно или счётно, переходы обычно описываются матрицей переходных вероятностей
Подробно свойства цепей Маркова, включая классификацию состояний, периодичность, стационарные распределения и сходимость, рассматриваются в отдельной статье Цепь Маркова.
Марковские процессы в непрерывном времени
Если множество моментов времени непрерывно, например , говорят о марковском процессе в непрерывном времени.
Для конечного пространства состояний такой процесс часто задаётся инфинитезимальным генератором , где
Число интерпретируется как интенсивность перехода из состояния
в состояние
. Матрица переходных вероятностей за время
выражается через матричную экспоненту:
Если — распределение процесса в момент
, то для конечной непрерывновременной цепи выполняется прямое уравнение Колмогорова
Стационарное распределение
Стационарное распределение — это распределение , которое не меняется при применении переходного оператора. Для дискретной цепи Маркова оно удовлетворяет уравнению
В координатах:
Если процесс запущен из стационарного распределения, то распределение остаётся равным
для всех
.
Для непрерывновременной конечной цепи стационарное распределение удовлетворяет
Стационарное распределение важно в методах сэмплирования, где марковская цепь строится так, чтобы её предельное распределение совпадало с заданным целевым распределением.
Долгосрочное поведение
Долгосрочное поведение марковского процесса зависит от структуры переходов. Для конечных цепей Маркова обычно рассматривают достижимость состояний, неприводимость, рекуррентность, периодичность и апериодичность.
Для конечной неприводимой и апериодической цепи существует единственное стационарное распределение , и распределение цепи сходится к нему:
Сходимость может нарушаться, если цепь периодична или если пространство состояний бесконечно и не выполнены дополнительные условия положительной рекуррентности.
Цепь Маркова называется обратимой относительно распределения , если выполнено условие детального баланса
Из детального баланса следует стационарность распределения . Это условие часто используется при построении алгоритмов MCMC.
Сильное марковское свойство
Сильное марковское свойство распространяет марковское свойство с фиксированных моментов времени на случайные моменты, называемые моментами остановки. Смысл свойства состоит в том, что после такого момента процесс, условно на текущем состоянии, развивается как новый марковский процесс и не зависит от предыдущей траектории.
Это свойство используется при изучении времён достижения, случайных блужданий, диффузионных процессов и задач оптимальной остановки.
Примеры
Случайное блуждание
Случайное блуждание — один из простейших примеров цепи Маркова. В одномерном случае процесс на может задаваться переходами
Случайные блуждания применяются в теории графов, моделировании диффузии, спектральной кластеризации и алгоритмах ранжирования.
Пуассоновский процесс
Пуассоновский процесс с интенсивностью — марковский процесс в непрерывном времени на множестве
. Если
— число событий к моменту
, то переходы возможны только из
в
. Его генератор имеет вид
Процесс рождения и гибели
Процесс рождения и гибели — непрерывновременная цепь Маркова на , в которой переходы возможны только между соседними состояниями:
Такие процессы применяются в теории массового обслуживания, популяционной динамике и моделировании очередей.
Винеровский процесс
Винеровский процесс, или броуновское движение, — марковский процесс с непрерывными траекториями и независимыми приращениями. Он является базовой моделью для диффузионных процессов и стохастических дифференциальных уравнений.
Марковские процессы в машинном обучении
Скрытые марковские модели
Скрытая марковская модель — это вероятностная модель, в которой скрытые состояния образуют цепь Маркова, а наблюдения
зависят от текущих скрытых состояний. Типичная факторизация совместного распределения имеет вид
Основные алгоритмы для скрытых марковских моделей: алгоритм Витерби, алгоритм прямого-обратного хода и алгоритм Баума — Велша.
Марковские процессы принятия решений
Марковский процесс принятия решений — управляемое обобщение марковского процесса. В нём переход зависит не только от состояния, но и от действия:
Обычно MDP задаётся набором
где — множество состояний,
— множество действий,
— переходная функция,
— функция награды,
— коэффициент дисконтирования.
Если политика фиксирована, то MDP индуцирует марковский процесс по состояниям. Теория MDP лежит в основе обучения с подкреплением и динамического программирования.
MCMC
Метод Монте-Карло по схеме марковских цепей строит цепь Маркова, стационарным распределением которой является заданное целевое распределение . После начального участка траектории, называемого burn-in, состояния цепи используются как зависимая выборка из
.
В алгоритме Метрополиса — Гастингса из текущего состояния предлагается новое состояние
, которое принимается с вероятностью
Целевое распределение достаточно знать с точностью до нормировочной константы, что делает MCMC удобным инструментом байесовского вывода.
Марковские модели последовательностей
Марковское предположение часто применяется к временным рядам и последовательностям. Модель первого порядка задаётся факторизацией
Модель порядка предполагает, что
Любой процесс порядка можно представить как процесс первого порядка, расширив состояние:
Оценивание параметров
Для конечной однородной цепи Маркова параметры матрицы переходов можно оценить по наблюдаемой траектории. Пусть — число наблюдавшихся переходов из состояния
в состояние
. Тогда оценка максимального правдоподобия имеет вид
Если некоторые переходы не наблюдались, применяют сглаживание. Например, при априорном распределении Дирихле можно использовать апостериорное среднее
В скрытых марковских моделях состояния не наблюдаются напрямую, поэтому параметры обычно оцениваются с помощью EM-алгоритма, вариационного вывода или MCMC.
Замечания
Марковское свойство зависит от выбора состояния. Если состояние содержит недостаточно информации о прошлом, наблюдаемый процесс может оказаться немарковским. Марковость не равна независимости. Соседние состояния процесса обычно зависимы. Стационарность и марковость — разные свойства. Марковский процесс может быть нестационарным. Наличие стационарного распределения не всегда означает сходимость к нему из любого начального состояния. В MCMC последовательные состояния зависимы, поэтому число итераций не совпадает с эффективным размером выборки.
См. также
- Стохастический процесс
- Цепь Маркова
- Скрытая марковская модель
- Марковский процесс принятия решений
- Метод Монте-Карло по схеме марковских цепей
- Обучение с подкреплением
Литература
- Markov A. A. Extension of the law of large numbers to quantities, depending on each other. — 1906.
- Norris J. R. Markov Chains. — Cambridge University Press, 1997.
- Levin D. A., Peres Y., Wilmer E. L. Markov Chains and Mixing Times. — American Mathematical Society, 2009; 2nd ed., 2017.
- Puterman M. L. Markov Decision Processes: Discrete Stochastic Dynamic Programming. — Wiley, 1994.
- Sutton R. S., Barto A. G. Reinforcement Learning: An Introduction. — 2nd ed. — MIT Press, 2018.
- Rabiner L. R. A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition // Proceedings of the IEEE. — 1989.
- Metropolis N., Rosenbluth A. W., Rosenbluth M. N., Teller A. H., Teller E. Equation of State Calculations by Fast Computing Machines // Journal of Chemical Physics. — 1953.
- Hastings W. K. Monte Carlo Sampling Methods Using Markov Chains and Their Applications // Biometrika. — 1970.
Ссылки
- Transition function — Encyclopedia of Mathematics.
- Markov Chains I — MIT OpenCourseWare.
- Markov Chains and Mixing Times — электронная версия книги Levin, Peres, Wilmer.
- Reinforcement Learning: An Introduction — страница книги Sutton, Barto.
- A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition — Rabiner, 1989.

