Байесовский вывод

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Новая: **Байесовский вывод** (англ. *Bayesian inference*) — это метод статистического вывода, в ...)
 
(14 промежуточных версий не показаны.)
Строка 1: Строка 1:
-
**Байесовский вывод** (англ. *Bayesian inference*) — это метод [[Статистический вывод|статистического вывода]], в котором [[Теорема Байеса|теорема Байеса]] используется для обновления вероятности гипотезы по мере поступления новых данных. В отличие от [[Частотный подход|частотного подхода]], байесовский вывод рассматривает неизвестные параметры как [[Случайная величина|случайные величины]] с распределением вероятностей, а не как фиксированные, но неизвестные константы. Байесовский вывод — это, по сути, **процесс обновления убеждений** (belief updating), а не просто набор конкретных алгоритмов. Байесовские методы (например, [[Наивный байесовский классификатор|наивный байесовский классификатор]], [[Гауссовский процесс|гауссовские процессы]]) являются *реализациями* этого процесса для решения конкретных задач машинного обучения.
+
{{well|Статья написана с использованием LLM '''DeepSeek-V4''' и проверена участником [[Участник:Dan-Кhaiaa Lakpazhap]] 18:29, 30 июня 2026 (MSD).
 +
Промпт приводится полностью в [[Обсуждение:Байесовский вывод]].
 +
}}
 +
{{TOCright}}
 +
'''Байе́совский вы́вод''' (англ. ''Bayesian inference'') — метод [[Статистический вывод|статистического вывода]], в котором [[теорема Байеса]] используется для пересмотра вероятности гипотезы по мере поступления новых свидетельств. Байесовский вывод составляет фундаментальную основу [[Байесовская статистика|байесовской статистики]] и играет ключевую роль в современном [[Машинное обучение|машинном обучении]], позволяя строить вероятностные модели, которые явно учитывают неопределённость параметров и прогнозов.
-
Байесовский подход предоставляет естественный язык для работы с неопределённостью, что делает его особенно ценным в [[Машинное обучение|машинном обучении]] (ML) для задач, где важна не только точечная оценка, но и уверенность в прогнозе.
+
В машинном обучении байесовский вывод даёт стройный математический аппарат для решения задач [[Обучение с учителем|обучения с учителем]] и [[Обучение без учителя|без учителя]], позволяя естественным образом объединять данные с экспертными знаниями, выполнять [[Регуляризация (математика)|регуляризацию]], проводить сравнение моделей (англ. ''model comparison'') с помощью [[Байесовский фактор|байесовского фактора]] и выдавать не только точечные прогнозы, но и меры неопределённости, критически важные в ответственных приложениях — от [[Медицинская диагностика|медицинской диагностики]] до [[Беспилотный автомобиль|беспилотных автомобилей]].
-
{{TOCright}}
+
== История ==
 +
Корни байесовского вывода восходят к работе [[Байес, Томас|Томаса Байеса]] (1702—1761), опубликованной посмертно в 1763 году под редакцией Ричарда Прайса<ref name="bayes1763">{{статья |автор=Bayes T. |заглавие=An Essay towards solving a Problem in the Doctrine of Chances |издание=Philosophical Transactions of the Royal Society of London |год=1763 |том=53 |страницы=370—418}}</ref>. В этой работе был сформулирован частный случай теоремы, ныне носящей его имя. Независимо и в гораздо более общей форме теорему Байеса переоткрыл и систематически применил [[Лаплас, Пьер-Симон|Пьер-Симон Лаплас]] в 1774 году, использовавший её для решения задач небесной механики, демографии и юриспруденции<ref name="laplace1774">{{статья |автор=Laplace P. S. |заглавие=Mémoire sur la probabilité des causes par les événements |издание=Mémoires de l’Académie royale des Sciences de Paris (Savants étrangers) |год=1774 |том=6 |страницы=621—656}}</ref>. Лаплас заложил основы того, что сегодня называется байесовским выводом: он явно вводил равномерное априорное распределение (принцип недостаточного основания) и вычислял апостериорные вероятности.
-
== Основы байесовского вывода ==
+
На протяжении XIX и начала XX века байесовские идеи использовались многими учёными, однако к 1920‑м годам доминирующим стал [[Частотная вероятность|частотный подход]], развитый [[Фишер, Роналд Эйлмер|Рональдом Фишером]], [[Нейман, Ежи|Ежи Нейманом]] и [[Пирсон, Эгон Шарп|Эгоном Пирсоном]], критиковавшими субъективность выбора априорного распределения. Возрождение байесовского вывода началось в середине XX века благодаря работам [[Джеффрис, Гарольд|Гарольда Джеффриса]] (объективное байесовское оценивание), [[Сэвидж, Леонард Джимми|Джимми Сэвиджа]] (аксиоматизация субъективной вероятности) и [[Линдли, Деннис Виктор|Денниса Линдли]]. Мощный импульс развитию дало появление вычислительных методов [[Метод Монте-Карло в цепях Маркова|MCMC]] (англ. ''Markov chain Monte Carlo'') в 1980—1990‑х годах, сделавших возможным численный расчёт апостериорных распределений для сложных многопараметрических моделей<ref name="gelfand1990">{{статья |автор=Gelfand A. E., Smith A. F. M. |заглавие=Sampling-Based Approaches to Calculating Marginal Densities |издание=Journal of the American Statistical Association |год=1990 |том=85 |номер=410 |страницы=398—409}}</ref>. В XXI веке байесовский вывод стал одним из столпов машинного обучения, а новые приближённые методы, такие как [[вариационный байесовский вывод]] (англ. ''variational Bayesian inference''), позволили масштабировать его на огромные наборы данных и [[глубокая нейронная сеть|глубокие нейронные сети]]<ref name="kingma2014">{{статья |автор=Kingma D. P., Welling M. |заглавие=Auto-Encoding Variational Bayes |издание=International Conference on Learning Representations (ICLR) |год=2014 |ссылка=https://arxiv.org/abs/1312.6114}}</ref>.
-
=== Теорема Байеса ===
+
== Основная идея ==
-
В основе байесовского вывода лежит [[Теорема Байеса|теорема Байеса]], которая в контексте вывода параметров модели записывается следующим образом:
+
В байесовском подходе параметры рассматриваются как [[Случайная величина|случайные величины]] с заданным [[Априорное распределение|априорным распределением]] (англ. ''prior distribution''), отражающим знания или предположения до наблюдения данных. После получения данных <tex>\mathcal{D}</tex> априорное распределение обновляется до [[Апостериорное распределение|апостериорного распределения]] (англ. ''posterior distribution'') по формуле Байеса:
-
<tex>
+
<tex>p(\theta \mid \mathcal{D}) = \frac{p(\mathcal{D} \mid \theta) \, p(\theta)}{p(\mathcal{D})},</tex>
-
p(\theta \mid D) = \frac{p(D \mid \theta) \, p(\theta)}{p(D)}
+
-
</tex>
+
где:
где:
-
* <tex>\theta</tex> — вектор неизвестных параметров модели;
+
* <tex>p(\theta)</tex> — ''априорное распределение'' — отражает информацию о параметрах до наблюдения данных. Может быть информативным (выражающим реальные экспертные знания), слабоинформативным или объективным (например, равномерное распределение, [[априорное распределение Джеффриса]]).
-
* <tex>D</tex> — наблюдаемые данные (обучающая выборка);
+
* <tex>p(\mathcal{D} \mid \theta)</tex> — ''функция правдоподобия'' — описывает вероятность получить наблюдаемые данные при фиксированном значении параметра, являясь связующим звеном между моделью и данными.
-
* <tex>p(\theta)</tex> — **априорное распределение** (англ. *prior distribution*), отражающее наши предположения о параметрах до наблюдения данных;
+
* <tex>p(\mathcal{D}) = \int p(\mathcal{D} \mid \theta) p(\theta) d\theta</tex> — ''маргинальное правдоподобие'' (англ. ''marginal likelihood'', или ''evidence'') — среднее значение правдоподобия по априорному распределению. Эта величина не зависит от <tex>\theta</tex> и используется для нормализации, а также для сравнения моделей (см. [[байесовский фактор]]).
-
* <tex>p(D \mid \theta)</tex> — **функция правдоподобия** (англ. *likelihood*), которая оценивает, насколько вероятны наблюдаемые данные при заданных параметрах <tex>\theta</tex>;
+
* <tex>p(\theta \mid \mathcal{D})</tex> — ''апостериорное распределение'' — итоговое представление о параметрах после учёта данных. Из него выводятся все байесовские оценки и прогнозы.
-
* <tex>p(\theta \mid D)</tex> — **апостериорное распределение** (англ. *posterior distribution*), обновлённое распределение параметров после учёта данных;
+
-
* <tex>p(D) = \int p(D \mid \theta) p(\theta) \, d\theta</tex> — **маргинальное правдоподобие** (англ. *marginal likelihood*), или [[Свидетельство (байесовский вывод)|свидетельство]] (evidence), играющее роль нормировочной константы.
+
-
Апостериорное распределение <tex>p(\theta \mid D)</tex> — это главный объект байесовского вывода. Оно объединяет априорную информацию и информацию из данных, давая полное вероятностное описание неопределённости относительно параметров модели.
+
Прогноз для новых наблюдений <tex>\tilde{x}</tex> вычисляется через ''прогностическое распределение'' (англ. ''posterior predictive distribution''):
-
=== От вывода к прогнозу ===
+
<tex>p(\tilde{x} \mid \mathcal{D}) = \int p(\tilde{x} \mid \theta) \, p(\theta \mid \mathcal{D}) \, d\theta,</tex>
-
Для предсказания нового наблюдения <tex>x^*</tex> используется **апостериорное предсказательное распределение** (англ. *posterior predictive distribution*):
+
которое в отличие от подстановки точечной оценки автоматически усредняет неопределённость по всем правдоподобным значениям параметров.
-
<tex>
+
Если априорное распределение выбрано из [[Сопряжённое априорное распределение|сопряжённого семейства]] (англ. ''conjugate prior'') к функции правдоподобия, то апостериорное распределение принадлежит тому же семейству, и обновление параметров сводится к простым алгебраическим действиям.
-
p(y^* \mid x^*, D) = \int p(y^* \mid x^*, \theta) \, p(\theta \mid D) \, d\theta
+
-
</tex>
+
-
Это распределение усредняет прогнозы по всем возможным значениям параметров, взвешенным по их апостериорной вероятности, что автоматически даёт интервалы неопределённости прогноза.
+
''Пример (подбрасывание монеты).'' Пусть результатами являются независимые [[Распределение Бернулли|бернуллиевские]] случайные величины с неизвестной вероятностью орла <tex>\theta \in [0,1]</tex>. Выберем априорное [[Бета-распределение]] <tex>\mathrm{Beta}(\alpha, \beta)</tex>. После наблюдения <tex>n</tex> бросков, в которых выпало <tex>h</tex> орлов, апостериорное распределение также будет бета-распределением:
-
== Ключевые понятия ==
+
<tex>p(\theta \mid \mathcal{D}) = \mathrm{Beta}(\alpha + h, \beta + n - h).</tex>
-
=== Априорное распределение ===
+
Это наглядно показывает, как данные последовательно «обновляют» наши представления.
-
Априорное распределение <tex>p(\theta)</tex> кодирует наши знания о параметрах *до* наблюдения данных. Выбор априорного распределения — один из центральных и наиболее обсуждаемых аспектов байесовского подхода. Различают:
+
=== Байесовское оценивание и решающие правила ===
-
* **Информативные априорные распределения** (англ. *informative priors*) — отражают конкретные содержательные предположения, основанные на экспертных знаниях или предыдущих исследованиях.
+
В байесовском выводе оценкой параметра часто служат характеристики апостериорного распределения: апостериорное среднее (минимизирует квадратичную функцию потерь), [[Максимум апостериорной вероятности|MAP-оценка]] (англ. ''maximum a posteriori estimation'') — точка максимума апостериорной плотности, или апостериорная медиана (минимизирует абсолютную функцию потерь). В отличие от единичной MAP-оценки, полный байесовский подход использует всё апостериорное распределение для принятия решений и формирования прогнозов, что позволяет автоматически учитывать неопределённость.
-
* **Слабые или неинформативные априорные распределения** (англ. *weakly informative / non-informative priors*) — оказывают минимальное влияние на апостериорное распределение, позволяя данным «говорить самим за себя».
+
-
* **Сопряжённые априорные распределения** (англ. *conjugate priors*) — обладают свойством, что апостериорное распределение принадлежит тому же семейству распределений, что и априорное. Это даёт аналитическое решение для апостериорного распределения, что значительно упрощает вычисления. Например, для [[Биномиальное распределение|биномиального]] правдоподобия сопряжённым априорным является [[Бета-распределение|бета-распределение]], а для [[Нормальное распределение|нормального]] — нормальное же.
+
-
=== Функция правдоподобия ===
+
== Байесовский вывод в статистике ==
 +
В классической статистике байесовский вывод предлагает альтернативный взгляд на задачи оценивания, проверки гипотез и сравнения моделей.
-
Функция правдоподобия <tex>p(D \mid \theta)</tex> связывает параметры модели с данными. Выбор правдоподобия определяется типом задачи и предположениями о распределении ошибок. Например, для задачи регрессии часто используют [[Нормальное распределение|нормальное]] правдоподобие <tex>p(y \mid x, \theta) = \mathcal{N}(y \mid f(x; \theta), \sigma^2)</tex>, где <tex>f(x; \theta)</tex> — функция модели, а <tex>\sigma^2</tex> — дисперсия шума.
+
=== Интервальное оценивание ===
 +
Вместо частотного [[Доверительный интервал|доверительного интервала]] байесовский подход оперирует ''байесовским доверительным интервалом'', или ''надёжным интервалом'' (англ. ''credible interval''). Интервал уровня <tex>(1 - \alpha)</tex> — это такой <tex>[a,b]</tex>, что вероятность попадания параметра в него по апостериорному распределению равна <tex>1 - \alpha</tex>:
-
=== Апостериорное распределение ===
+
<tex>P(a \le \theta \le b \mid \mathcal{D}) = 1 - \alpha.</tex>
-
Апостериорное распределение <tex>p(\theta \mid D)</tex> является результатом байесовского вывода. Оно может быть использовано для:
+
Эта интерпретация непосредственно соответствует интуитивному пониманию «интервала неопределённости» и не требует ссылок на гипотетические повторные выборки.
-
* **Точечного оценивания** — например, [[Оценка максимума апостериорной вероятности|оценка максимума апостериорной вероятности]] (MAP, англ. *maximum a posteriori*), которая совпадает с [[Регуляризация Тихонова|L2-регуляризацией]] при нормальном априорном распределении.
+
=== Проверка гипотез и байесовский фактор ===
-
* **Интервального оценивания** — построения [[Доверительный интервал|кредибельных интервалов]] (англ. *credible intervals*) для параметров.
+
Сравнение двух конкурирующих моделей <tex>M_1</tex> и <tex>M_2</tex> проводится с помощью [[Байесовский фактор|байесовского фактора]] (англ. ''Bayes factor''):
-
* **Сравнения моделей** — через [[Байесовский фактор|байесовский фактор]] (англ. *Bayes factor*), который используется для выбора между конкурирующими моделями.
+
-
== Вычислительные методы ==
+
<tex>B_{12} = \frac{p(\mathcal{D} \mid M_1)}{p(\mathcal{D} \mid M_2)}.</tex>
-
Для многих моделей, особенно сложных, апостериорное распределение не имеет аналитического вида, и нормировочная константа <tex>p(D)</tex> оказывается [[Высокая размерность|высокомерным]] интегралом, не берущимся аналитически. В этих случаях применяются приближённые методы вывода.
+
Байесовский фактор показывает, во сколько раз данные более вероятны при одной модели по сравнению с другой, и автоматически включает штраф за сложность модели (см. [[Бритва Оккама]]). Например, при сравнении полиномиальных регрессий разной степени байесовский фактор часто отдаёт предпочтение более простой модели, если усложнение не приводит к существенному росту правдоподобия<ref name="kass1995">{{статья |автор=Kass R. E., Raftery A. E. |заглавие=Bayes Factors |издание=Journal of the American Statistical Association |год=1995 |том=90 |номер=430 |страницы=773—795}}</ref>.
-
=== Методы Монте-Карло с цепями Маркова ===
+
== Байесовский вывод в машинном обучении ==
-
[[Метод Монте-Карло с цепями Маркова|Методы Монте-Карло с цепями Маркова]] (MCMC, англ. *Markov Chain Monte Carlo*) — это класс алгоритмов для семплирования из сложных распределений. MCMC строит цепь Маркова, стационарное распределение которой совпадает с целевым апостериорным распределением. После периода «прогрева» (burn-in) семплы из цепи используются для аппроксимации апостериорного распределения и вычисления различных статистик.
+
Байесовский вывод применяется в машинном обучении для построения вероятностных моделей, оценки неопределённости, выбора моделей и оптимизации [[гиперпараметр|гиперпараметров]]. Современные методы различаются как по типу используемых моделей, так и по способам приближённого вычисления апостериорного распределения.
-
К популярным алгоритмам MCMC относятся:
+
=== Вероятностные модели ===
 +
* [[Наивный байесовский классификатор]] — простая, но эффективная модель классификации, основанная на предположении условной независимости признаков.
 +
* [[Байесовская сеть]] — направленное графическое представление совместного распределения большого числа переменных.
 +
* [[Гауссовский процесс]] — непараметрическое байесовское распределение над функциями, применяемое в регрессии и [[Байесовская оптимизация|байесовской оптимизации]].
 +
* [[Байесовская нейронная сеть]] — нейронная сеть, веса которой рассматриваются как случайные величины с апостериорным распределением.
-
* **Метод Метрополиса-Гастингса** (англ. *Metropolis-Hastings algorithm*);
+
=== Методы приближённого вывода ===
-
* **Семплирование по Гиббсу** (англ. *Gibbs sampling*);
+
* [[Метод Монте-Карло в цепях Маркова]] (MCMC).
-
* **Гамильтонов Монте-Карло** (HMC, англ. *Hamiltonian Monte Carlo*), в частности его реализация в [[Stan|Stan]] — **NUTS** (англ. *No-U-Turn Sampler*).
+
* [[Вариационный байесовский вывод]].
-
MCMC обеспечивает асимптотически точные результаты, но может быть вычислительно затратным для больших данных и моделей с высокой размерностью.
+
=== Приложения ===
 +
* [[Байесовская оптимизация]] — поиск экстремума дорогостоящих функций (в частности, подбор гиперпараметров алгоритмов машинного обучения).
 +
* [[Вариационный автокодировщик]] — генеративная модель, объединяющая идеи вариационного вывода и глубокого обучения<ref name="kingma2014" />.
-
=== Вариационный вывод ===
+
== Вычислительные методы ==
-
[[Вариационный вывод|Вариационный вывод]] (VI, англ. *variational inference*) — это альтернативный подход, который сводит задачу аппроксимации апостериорного распределения к [[Оптимизация (математика)|оптимизации]]. Ищется параметрическое семейство распределений <tex>q(\theta; \lambda)</tex>, которое минимизирует [[Расхождение Кульбака — Лейблера|расхождение Кульбака-Лейблера]] (KL-дивергенцию) между <tex>q(\theta; \lambda)</tex> и истинным апостериорным распределением <tex>p(\theta \mid D)</tex>. Это эквивалентно максимизации **нижней границы доказательства** (ELBO, англ. *Evidence Lower BOund*).
+
В общем случае вычисление [[апостериорное распределение|апостериорного распределения]], [[маргинальное правдоподобие|маргинального правдоподобия]] и прогностического распределения требует вычисления многомерных интегралов, не имеющих, как правило, аналитического решения. Для приближённого байесовского вывода применяются два основных класса методов: методы Монте-Карло в цепях Маркова и вариационный вывод.
-
Вариационный вывод значительно быстрее MCMC и хорошо масштабируется на большие данные, однако даёт лишь приближённое решение и может недооценивать дисперсию апостериорного распределения.
+
=== Методы Монте-Карло в цепях Маркова ===
-
=== Другие методы ===
+
[[Метод Монте-Карло в цепях Маркова|Методы Монте-Карло в цепях Маркова]] (англ. ''Markov chain Monte Carlo'', MCMC) строят [[Цепь Маркова|марковскую цепь]], стационарное распределение которой совпадает с целевым апостериорным распределением <tex>p(\theta \mid \mathcal{D})</tex>. После достижения стационарности выборка из цепи используется для оценки математических ожиданий, квантилей и прогностических распределений.
-
* **Интегрирование по Лапласу** (англ. *Laplace approximation*) аппроксимация апостериорного распределения [[Нормальное распределение|нормальным]] распределением с центром в [[Оценка максимума апостериорной вероятности|MAP-оценке]].
+
К наиболее распространённым алгоритмам относятся [[алгоритм Метрополиса Гастингса]], [[сэмплирование по Гиббсу]], [[Гамильтонов метод Монте-Карло|гамильтонов метод Монте-Карло]] (HMC) и алгоритм No-U-Turn Sampler (NUTS). Последние два особенно эффективны для многомерных моделей и реализованы в вероятностных языках программирования [[Stan]] и [[PyMC]]<ref name="hoffman2014">{{статья |автор=Hoffman M. D., Gelman A. |заглавие=The No-U-Turn Sampler: Adaptively Setting Path Lengths in Hamiltonian Monte Carlo |издание=Journal of Machine Learning Research |год=2014 |том=15 |страницы=1593—1623 |ссылка=https://jmlr.org/papers/v15/hoffman14a.html}}</ref>.
-
* **Вариационные автоэнкодеры** (VAE, англ. *Variational Autoencoders*) — используют вариационный вывод для обучения [[Генеративная модель|генеративных моделей]] с [[Скрытая переменная|скрытыми переменными]].
+
-
* **Байесовский вывод методом исключения** (англ. *Bayesian inference by elimination*) — точный, но вычислительно сложный метод для [[Вероятностная графическая модель|вероятностных графических моделей]] с небольшим числом переменных.
+
-
== Применение в машинном обучении ==
+
MCMC-методы асимптотически сходятся к точному апостериорному распределению, однако их вычислительная стоимость может быть высокой для моделей с большим числом параметров или большим объёмом данных.
-
Байесовский вывод предоставляет мощный фреймворк для решения широкого круга задач машинного обучения.
+
=== Вариационный вывод ===
-
=== Байесовская линейная регрессия ===
+
[[Вариационный байесовский вывод]] заменяет задачу вычисления апостериорного распределения задачей оптимизации в параметризованном семействе распределений <tex>q_\phi(\theta)</tex>, минимизируя [[Расстояние Кульбака — Лейблера|расстояние Кульбака — Лейблера]] <tex>\mathrm{KL}(q_\phi(\theta) \,\|\, p(\theta \mid \mathcal{D}))</tex>. По сравнению с MCMC он обеспечивает существенно более высокую скорость вычислений ценой появления систематической ошибки аппроксимации.
-
В [[Байесовская линейная регрессия|байесовской линейной регрессии]] априорное распределение на веса модели позволяет получить апостериорное распределение весов. Это даёт не только точечный прогноз, но и его дисперсию, что критически важно для оценки надёжности предсказаний. При нормальном априорном распределении MAP-оценка совпадает с [[Гребневая регрессия|гребневой регрессией]] (ридж-регрессией).
+
Для масштабирования на большие наборы данных применяется стохастический вариационный вывод (англ. ''stochastic variational inference''), использующий мини-пакеты данных и методы [[Стохастический градиентный спуск|стохастической оптимизации]]<ref name="hoffman2013">{{статья |автор=Hoffman M. D., Blei D. M., Wang C., Paisley J. |заглавие=Stochastic Variational Inference |издание=Journal of Machine Learning Research |год=2013 |том=14 |страницы=1303—1347 |ссылка=https://jmlr.org/papers/v14/hoffman13a.html}}</ref>. Вариационный вывод широко используется в современных байесовских моделях, включая [[вариационный автокодировщик|вариационные автокодировщики]] и [[байесовская нейронная сеть|байесовские нейронные сети]].
-
=== Байесовские нейронные сети ===
+
== Связь с другими подходами ==
 +
Байесовский вывод имеет глубокие связи с методами машинного обучения, формально не позиционируемыми как байесовские.
-
[[Байесовская нейронная сеть|Байесовские нейронные сети]] (BNN) рассматривают веса сети как случайные величины с априорным распределением. Вывод в BNN требует аппроксимативных методов (MCMC или VI) и позволяет оценивать неопределённость прогнозов, что особенно важно в приложениях, связанных с безопасностью (медицина, автономные системы).
+
* '''Регуляризация'''. Максимизация апостериорной вероятности (MAP) в модели линейной регрессии с гауссовым априорным распределением на веса <tex>p(\mathbf{w}) = \mathcal{N}(0, \lambda^{-1} \mathbf{I})</tex> в точности эквивалентна минимизации суммы квадратов ошибок с <tex>L_2</tex>-регуляризацией ([[гребневая регрессия]]). Лапласовское априорное распределение приводит к [[Лассо (статистика)|<tex>L_1</tex>-регуляризации]] (Lasso), поощряющей разреженные решения. Таким образом, многие классические приёмы машинного обучения допускают байесовскую интерпретацию<ref name="bishop2006">{{книга |автор=Bishop C. M. |заглавие=Pattern Recognition and Machine Learning |издательство=Springer |год=2006 |isbn=978-0387310732}}</ref>.
 +
* '''Эмпирический байесовский подход''' (англ. ''empirical Bayes'') оценивает параметры априорного распределения по самим данным, максимизируя маргинальное правдоподобие, и занимает промежуточное положение между частотной и полностью байесовской парадигмами.
 +
* '''Частотный вывод''' получает точечные оценки (например, [[метод максимального правдоподобия]]) и доверительные интервалы; в пределе больших выборок, при слабых априорных предположениях, байесовские и частотные выводы часто сближаются в силу [[Теорема Бернштейна — фон Мизеса|теоремы Бернштейна — фон Мизеса]] (англ. ''Bernstein—von Mises theorem'').
-
=== Гауссовские процессы ===
+
== Критика и ограничения ==
 +
Основной предмет критики байесовского вывода — неизбежная субъективность выбора априорного распределения. В ответ разработаны методологии объективных байесовских априорных (Джеффриса, референсные априорные, англ. ''reference priors''), однако в многомерных задачах их выбор неоднозначен<ref name="bernardo2009">{{книга |автор=Bernardo J. M., Smith A. F. M. |заглавие=Bayesian Theory |издательство=Wiley |год=2009 |isbn=978-0471494645}}</ref>.
-
[[Гауссовский процесс|Гауссовские процессы]] (GP) — это непараметрический байесовский подход, задающий априорное распределение на пространстве функций. GP предоставляют естественный механизм для оценки неопределённости прогнозов и широко используются в [[Байесовская оптимизация|байесовской оптимизации]] и [[Пространственный анализ|пространственном анализе]].
+
Второе важное ограничение — вычислительная сложность. Несмотря на революцию MCMC и вариационных методов, полный байесовский анализ современных глубоких нейронных сетей с миллионами параметров остаётся дорогостоящим и часто заменяется точечными оценками с приближённой оценкой неопределённости. Активные исследования в области байесовского глубокого обучения (англ. ''Bayesian deep learning'') направлены на преодоление этого разрыва, разрабатывая такие методы, как MC Dropout, стохастические веса и глубокие [[Гауссовский процесс|гауссовские процессы]]<ref name="wilson2020">{{статья |автор=Wilson A. G., Izmailov P. |заглавие=Bayesian Deep Learning and a Probabilistic Perspective of Generalization |издание=Advances in Neural Information Processing Systems (NeurIPS) |год=2020 |ссылка=https://arxiv.org/abs/2002.08791}}</ref>.
-
=== Байесовская оптимизация ===
+
Несмотря на эти вызовы, байесовский вывод продолжает оставаться «золотым стандартом» статистического рассуждения в условиях неопределённости, предоставляя как теоретическую основу для обучения, так и практически востребованные инструменты для анализа данных.
-
 
+
-
[[Байесовская оптимизация|Байесовская оптимизация]] — это эффективный метод глобальной оптимизации [[Чёрный ящик|«чёрных ящиков»]] (функций, не имеющих аналитического вида и производной), который использует гауссовские процессы для построения [[Сюррогатная модель|суррогатной модели]] целевой функции и управления выбором следующих точек для вычисления.
+
-
 
+
-
=== Связь с регуляризацией ===
+
-
 
+
-
Существует глубокая связь между байесовским выводом и регуляризацией в ML. MAP-оценка при определённых априорных распределениях эквивалентна оптимизации с регуляризацией:
+
-
* [[Регуляризация Тихонова|L2-регуляризация]] (ридж) соответствует нормальному априорному распределению на веса.
+
-
* [[LASSO|L1-регуляризация]] (лассо) соответствует [[Распределение Лапласа|априорному распределению Лапласа]].
+
-
 
+
-
Это даёт вероятностную интерпретацию регуляризации и позволяет выбирать параметры регуляризации (например, <tex>\lambda</tex>) через иерархические байесовские модели.
+
-
 
+
-
=== Классификация ===
+
-
 
+
-
[[Наивный байесовский классификатор|Наивный байесовский классификатор]] — один из простейших и эффективных байесовских алгоритмов классификации, основанный на применении теоремы Байеса с «наивным» предположением о независимости признаков. Более сложные байесовские подходы к классификации используют априорные распределения на параметры моделей (например, [[Логистическая регрессия|логистической регрессии]]).
+
-
 
+
-
== Преимущества и ограничения ==
+
-
 
+
-
=== Преимущества ===
+
-
 
+
-
* **Естественная обработка неопределённости**: байесовский вывод предоставляет полное вероятностное описание неопределённости в параметрах и прогнозах.
+
-
* **Использование априорных знаний**: позволяет включать экспертные знания или результаты предыдущих исследований в модель.
+
-
* **Иерархическое моделирование**: позволяет строить сложные многоуровневые модели, учитывающие структуру данных.
+
-
* **Автоматическая защита от переобучения**: априорное распределение действует как регуляризатор, особенно в задачах с малым объёмом данных.
+
-
* **Байесовское сравнение моделей**: позволяет объективно сравнивать конкурирующие модели через байесовский фактор.
+
-
 
+
-
=== Ограничения ===
+
-
 
+
-
* **Вычислительная сложность**: точный байесовский вывод требует вычисления многомерных интегралов, что для многих моделей является [[NP-трудная задача|NP-трудной]] задачей. Приближённые методы (MCMC, VI) могут быть медленными или неточными.
+
-
* **Выбор априорного распределения**: априорное распределение всегда субъективно, и его выбор может существенно влиять на результаты, особенно при малом объёме данных.
+
-
* **Масштабируемость**: многие байесовские методы плохо масштабируются на очень большие наборы данных и модели с миллионами параметров (например, [[Глубокое обучение|глубокие нейронные сети]), хотя в последние годы достигнут значительный прогресс в этой области (стохастический вариационный вывод, байесовские нейронные сети с [[Dropout|dropout]] как аппроксимацией).
+
-
* **Интерпретируемость**: хотя байесовские модели дают вероятностные интерпретации, их сложность может затруднять содержательную интерпретацию для прикладных специалистов.
+
-
 
+
-
== Байесовский вывод vs частотный подход ==
+
-
 
+
-
| **Аспект** | **Байесовский подход** | **Частотный подход** |
+
-
|---|---|---|
+
-
| **Параметры** | Случайные величины с распределением | Фиксированные, но неизвестные константы |
+
-
| **Неопределённость** | Вероятностная (апостериорное распределение) | Доверительные интервалы, p-значения |
+
-
| **Априорная информация** | Явно включается через априорное распределение | Не используется, либо используется неявно |
+
-
| **Интерпретация вероятности** | Субъективная (степень уверенности) | Объективная (частота событий в длинной серии) |
+
-
| **Результат** | Апостериорное распределение параметров | Точечные оценки и доверительные интервалы |
+
-
 
+
-
На практике выбор между подходами часто определяется не философскими предпочтениями, а соображениями вычислительной эффективности, доступностью априорной информации и требованиями к интерпретации неопределённости.
+
-
 
+
-
== Историческая справка ==
+
-
 
+
-
История байесовского вывода берёт начало в XVIII веке и насчитывает более 150 лет до появления формального частотного подхода.
+
-
 
+
-
* **1763 год** — Посмертная публикация работы преподобного [[Томас Байес|Томаса Байеса]] «An Essay towards solving a Problem in the Doctrine of Chances», в которой была сформулирована теорема, носящая его имя.
+
-
* **1774–1786 годы** — [[Пьер-Симон Лаплас]] независимо переоткрывает и развивает теорему Байеса, формулируя «принцип обратной вероятности» (principle of inverse probability) и активно применяя байесовские методы в астрономии, геодезии и демографии.
+
-
* **XIX век** — Байесовские методы широко используются, хотя термин «байесовский» ещё не применяется. [[Карл Фридрих Гаусс]] и [[Адриен-Мари Лежандр]] разрабатывают метод наименьших квадратов, который позже получил байесовскую интерпретацию.
+
-
* **Начало XX века** — С развитием [[Рональд Фишер|фишеровской]] частотной статистики байесовский подход вытесняется на периферию. Фишер вводит понятие [[Максимальное правдоподобие|максимального правдоподобия]], которое становится доминирующим.
+
-
* **Середина XX века** — Возрождение байесовского подхода связано с работами [[Бруно де Финетти|Бруно де Финетти]], [[Леонард Сэвидж|Леонарда Сэвиджа]] и [[Деннис Линдли|Денниса Линдли]], которые разработали аксиоматические основания субъективной вероятности и байесовского принятия решений.
+
-
* **Конец XX – начало XXI века** — Развитие вычислительных методов (MCMC, вариационный вывод) и рост вычислительных мощностей сделали байесовский вывод практически применимым для сложных моделей. Байесовские методы становятся неотъемлемой частью современного машинного обучения.
+
== См. также ==
== См. также ==
* [[Теорема Байеса]]
* [[Теорема Байеса]]
 +
* [[Байесовская статистика]]
* [[Априорное распределение]]
* [[Априорное распределение]]
-
* [[Апостериорное распределение]]
+
* [[Сопряжённое априорное распределение]]
-
* [[Метод Монте-Карло с цепями Маркова]]
+
* [[Маргинальное правдоподобие]]
-
* [[Вариационный вывод]]
+
* [[Байесовский фактор]]
-
* [[Гауссовский процесс]]
+
* [[Вариационный байесовский вывод]]
 +
* [[Метод Монте-Карло в цепях Маркова]]
* [[Байесовская оптимизация]]
* [[Байесовская оптимизация]]
 +
* [[Байесовская нейронная сеть]]
* [[Наивный байесовский классификатор]]
* [[Наивный байесовский классификатор]]
-
* [[Байесовская нейронная сеть]]
+
* [[Байесовская сеть]]
-
* [[Регуляризация]]
+
* [[Регуляризация (математика)|Регуляризация]]
== Примечания ==
== Примечания ==
Строка 173: Строка 128:
== Литература ==
== Литература ==
-
* {{книга |автор=Gelman A., Carlin J. B., Stern H. S., Dunson D. B., Vehtari A., Rubin D. B. |заглавие=Bayesian Data Analysis |издание=3rd ed. |место=Boca Raton |издательство=Chapman & Hall/CRC |год=2013 |allpages=675 |isbn=978-1-4398-4095-5}} — Фундаментальный учебник по байесовскому анализу данных.
+
 
-
* {{книга |автор=Murphy K. P. |заглавие=Machine Learning: A Probabilistic Perspective |место=Cambridge, MA |издательство=MIT Press |год=2012 |allpages=1072 |isbn=978-0-262-01802-9}} — Исчерпывающий обзор машинного обучения с вероятностной точки зрения.
+
* {{книга |автор=Gelman A., Carlin J. B., Stern H. S., Dunson D. B., Vehtari A., Rubin D. B. |заглавие=Bayesian Data Analysis |издание=3rd ed. |издательство=CRC Press |год=2013 |isbn=978-1439840955}}
-
* {{книга |автор=Bishop C. M. |заглавие=Pattern Recognition and Machine Learning |место=New York |издательство=Springer |год=2006 |allpages=738 |isbn=978-0-387-31073-2}} — Классический учебник, содержащий обширный раздел по байесовским методам.
+
* {{книга |автор=Bishop C. M. |заглавие=Pattern Recognition and Machine Learning |издательство=Springer |год=2006 |isbn=978-0387310732}}
-
* {{книга |автор=MacKay D. J. C. |заглавие=Information Theory, Inference, and Learning Algorithms |место=Cambridge |издательство=Cambridge University Press |год=2003 |allpages=640 |isbn=978-0-521-64298-9}} — Уникальный учебник, связывающий теорию информации, байесовский вывод и обучение.
+
* {{книга |автор=Murphy K. P. |заглавие=Machine Learning: A Probabilistic Perspective |издательство=MIT Press |год=2012 |isbn=978-0262018029}}
-
* {{статья |автор=Kruschke J. K. |заглавие=Bayesian estimation supersedes the t test |издание=Journal of Experimental Psychology: General |год=2013 |том=142 |номер=2 |страницы=573–603 |doi=10.1037/a0029146}} — Практическое введение в байесовское оценивание для психологов и социологов.
+
* {{книга |автор=MacKay D. J. C. |заглавие=Information Theory, Inference, and Learning Algorithms |издательство=Cambridge University Press |год=2003 |isbn=978-0521642989}}
-
* {{книга |автор=Theodoridis S. |заглавие=Machine Learning: A Bayesian and Optimization Perspective |место=London |издательство=Academic Press |год=2020 |allpages=1200 |isbn=978-0-12-801522-3}} — Современный учебник, объединяющий байесовский и оптимизационный подходы.
+
* {{книга |автор=Robert C. P. |заглавие=The Bayesian Choice |издание=2nd ed. |издательство=Springer |год=2007 |isbn=978-0387715988}}
 +
* {{книга |автор=Bernardo J. M., Smith A. F. M. |заглавие=Bayesian Theory |издательство=Wiley |год=2009 |isbn=978-0471494645}}
 +
* {{статья |автор=Kingma D. P., Welling M. |заглавие=Auto-Encoding Variational Bayes |издание=International Conference on Learning Representations (ICLR) |год=2014 |ссылка=https://arxiv.org/abs/1312.6114}}
 +
* {{статья |автор=Blundell C., Cornebise J., Kavukcuoglu K., Wierstra D. |заглавие=Weight Uncertainty in Neural Networks |издание=International Conference on Machine Learning (ICML) |год=2015 |ссылка=https://arxiv.org/abs/1505.05424}}
 +
* {{статья |автор=Hoffman M. D., Blei D. M., Wang C., Paisley J. |заглавие=Stochastic Variational Inference |издание=Journal of Machine Learning Research |год=2013 |том=14 |страницы=1303—1347 |ссылка=https://jmlr.org/papers/v14/hoffman13a.html}}
 +
* {{статья |автор=Snoek J., Larochelle H., Adams R. P. |заглавие=Practical Bayesian Optimization of Machine Learning Algorithms |издание=Advances in Neural Information Processing Systems (NeurIPS) |год=2012 |ссылка=https://arxiv.org/abs/1206.2944}}
 +
* {{статья |автор=Gal Y., Ghahramani Z. |заглавие=Dropout as a Bayesian Approximation: Representing Model Uncertainty in Deep Learning |издание=International Conference on Machine Learning (ICML) |год=2016 |ссылка=https://arxiv.org/abs/1506.02142}}
 +
* {{статья |автор=Garnelo M., Schwarz J., Rosenbaum D., Viola F., Rezende D. J. et al. |заглавие=Neural Processes |издание=ICML Workshop on Theoretical Foundations and Applications of Deep Generative Models |год=2018 |ссылка=https://arxiv.org/abs/1807.01622}}
 +
* {{статья |автор=Wilson A. G., Izmailov P. |заглавие=Bayesian Deep Learning and a Probabilistic Perspective of Generalization |издание=Advances in Neural Information Processing Systems (NeurIPS) |год=2020 |ссылка=https://arxiv.org/abs/2002.08791}}
 +
 
 +
[[Категория:Машинное обучение]]
 +
[[Категория:Теория вероятностей]]
 +
[[Категория:Математическая статистика]]

Текущая версия

Статья написана с использованием LLM DeepSeek-V4 и проверена участником Участник:Dan-Кhaiaa Lakpazhap 18:29, 30 июня 2026 (MSD).

Промпт приводится полностью в Обсуждение:Байесовский вывод.


Содержание

Байе́совский вы́вод (англ. Bayesian inference) — метод статистического вывода, в котором теорема Байеса используется для пересмотра вероятности гипотезы по мере поступления новых свидетельств. Байесовский вывод составляет фундаментальную основу байесовской статистики и играет ключевую роль в современном машинном обучении, позволяя строить вероятностные модели, которые явно учитывают неопределённость параметров и прогнозов.

В машинном обучении байесовский вывод даёт стройный математический аппарат для решения задач обучения с учителем и без учителя, позволяя естественным образом объединять данные с экспертными знаниями, выполнять регуляризацию, проводить сравнение моделей (англ. model comparison) с помощью байесовского фактора и выдавать не только точечные прогнозы, но и меры неопределённости, критически важные в ответственных приложениях — от медицинской диагностики до беспилотных автомобилей.

История

Корни байесовского вывода восходят к работе Томаса Байеса (1702—1761), опубликованной посмертно в 1763 году под редакцией Ричарда Прайса[1]. В этой работе был сформулирован частный случай теоремы, ныне носящей его имя. Независимо и в гораздо более общей форме теорему Байеса переоткрыл и систематически применил Пьер-Симон Лаплас в 1774 году, использовавший её для решения задач небесной механики, демографии и юриспруденции[1]. Лаплас заложил основы того, что сегодня называется байесовским выводом: он явно вводил равномерное априорное распределение (принцип недостаточного основания) и вычислял апостериорные вероятности.

На протяжении XIX и начала XX века байесовские идеи использовались многими учёными, однако к 1920‑м годам доминирующим стал частотный подход, развитый Рональдом Фишером, Ежи Нейманом и Эгоном Пирсоном, критиковавшими субъективность выбора априорного распределения. Возрождение байесовского вывода началось в середине XX века благодаря работам Гарольда Джеффриса (объективное байесовское оценивание), Джимми Сэвиджа (аксиоматизация субъективной вероятности) и Денниса Линдли. Мощный импульс развитию дало появление вычислительных методов MCMC (англ. Markov chain Monte Carlo) в 1980—1990‑х годах, сделавших возможным численный расчёт апостериорных распределений для сложных многопараметрических моделей[1]. В XXI веке байесовский вывод стал одним из столпов машинного обучения, а новые приближённые методы, такие как вариационный байесовский вывод (англ. variational Bayesian inference), позволили масштабировать его на огромные наборы данных и глубокие нейронные сети[1].

Основная идея

В байесовском подходе параметры рассматриваются как случайные величины с заданным априорным распределением (англ. prior distribution), отражающим знания или предположения до наблюдения данных. После получения данных \mathcal{D} априорное распределение обновляется до апостериорного распределения (англ. posterior distribution) по формуле Байеса:

p(\theta \mid \mathcal{D}) = \frac{p(\mathcal{D} \mid \theta) \, p(\theta)}{p(\mathcal{D})},

где:

  • p(\theta)априорное распределение — отражает информацию о параметрах до наблюдения данных. Может быть информативным (выражающим реальные экспертные знания), слабоинформативным или объективным (например, равномерное распределение, априорное распределение Джеффриса).
  • p(\mathcal{D} \mid \theta)функция правдоподобия — описывает вероятность получить наблюдаемые данные при фиксированном значении параметра, являясь связующим звеном между моделью и данными.
  • p(\mathcal{D}) = \int p(\mathcal{D} \mid \theta) p(\theta) d\thetaмаргинальное правдоподобие (англ. marginal likelihood, или evidence) — среднее значение правдоподобия по априорному распределению. Эта величина не зависит от \theta и используется для нормализации, а также для сравнения моделей (см. байесовский фактор).
  • p(\theta \mid \mathcal{D})апостериорное распределение — итоговое представление о параметрах после учёта данных. Из него выводятся все байесовские оценки и прогнозы.

Прогноз для новых наблюдений \tilde{x} вычисляется через прогностическое распределение (англ. posterior predictive distribution):

p(\tilde{x} \mid \mathcal{D}) = \int p(\tilde{x} \mid \theta) \, p(\theta \mid \mathcal{D}) \, d\theta,

которое в отличие от подстановки точечной оценки автоматически усредняет неопределённость по всем правдоподобным значениям параметров.

Если априорное распределение выбрано из сопряжённого семейства (англ. conjugate prior) к функции правдоподобия, то апостериорное распределение принадлежит тому же семейству, и обновление параметров сводится к простым алгебраическим действиям.

Пример (подбрасывание монеты). Пусть результатами являются независимые бернуллиевские случайные величины с неизвестной вероятностью орла \theta \in [0,1]. Выберем априорное Бета-распределение \mathrm{Beta}(\alpha, \beta). После наблюдения n бросков, в которых выпало h орлов, апостериорное распределение также будет бета-распределением:

p(\theta \mid \mathcal{D}) = \mathrm{Beta}(\alpha + h, \beta + n - h).

Это наглядно показывает, как данные последовательно «обновляют» наши представления.

Байесовское оценивание и решающие правила

В байесовском выводе оценкой параметра часто служат характеристики апостериорного распределения: апостериорное среднее (минимизирует квадратичную функцию потерь), MAP-оценка (англ. maximum a posteriori estimation) — точка максимума апостериорной плотности, или апостериорная медиана (минимизирует абсолютную функцию потерь). В отличие от единичной MAP-оценки, полный байесовский подход использует всё апостериорное распределение для принятия решений и формирования прогнозов, что позволяет автоматически учитывать неопределённость.

Байесовский вывод в статистике

В классической статистике байесовский вывод предлагает альтернативный взгляд на задачи оценивания, проверки гипотез и сравнения моделей.

Интервальное оценивание

Вместо частотного доверительного интервала байесовский подход оперирует байесовским доверительным интервалом, или надёжным интервалом (англ. credible interval). Интервал уровня (1 - \alpha) — это такой [a,b], что вероятность попадания параметра в него по апостериорному распределению равна 1 - \alpha:

P(a \le \theta \le b \mid \mathcal{D}) = 1 - \alpha.

Эта интерпретация непосредственно соответствует интуитивному пониманию «интервала неопределённости» и не требует ссылок на гипотетические повторные выборки.

Проверка гипотез и байесовский фактор

Сравнение двух конкурирующих моделей M_1 и M_2 проводится с помощью байесовского фактора (англ. Bayes factor):

B_{12} = \frac{p(\mathcal{D} \mid M_1)}{p(\mathcal{D} \mid M_2)}.

Байесовский фактор показывает, во сколько раз данные более вероятны при одной модели по сравнению с другой, и автоматически включает штраф за сложность модели (см. Бритва Оккама). Например, при сравнении полиномиальных регрессий разной степени байесовский фактор часто отдаёт предпочтение более простой модели, если усложнение не приводит к существенному росту правдоподобия[1].

Байесовский вывод в машинном обучении

Байесовский вывод применяется в машинном обучении для построения вероятностных моделей, оценки неопределённости, выбора моделей и оптимизации гиперпараметров. Современные методы различаются как по типу используемых моделей, так и по способам приближённого вычисления апостериорного распределения.

Вероятностные модели

Методы приближённого вывода

Приложения

Вычислительные методы

В общем случае вычисление апостериорного распределения, маргинального правдоподобия и прогностического распределения требует вычисления многомерных интегралов, не имеющих, как правило, аналитического решения. Для приближённого байесовского вывода применяются два основных класса методов: методы Монте-Карло в цепях Маркова и вариационный вывод.

Методы Монте-Карло в цепях Маркова

Методы Монте-Карло в цепях Маркова (англ. Markov chain Monte Carlo, MCMC) строят марковскую цепь, стационарное распределение которой совпадает с целевым апостериорным распределением p(\theta \mid \mathcal{D}). После достижения стационарности выборка из цепи используется для оценки математических ожиданий, квантилей и прогностических распределений.

К наиболее распространённым алгоритмам относятся алгоритм Метрополиса — Гастингса, сэмплирование по Гиббсу, гамильтонов метод Монте-Карло (HMC) и алгоритм No-U-Turn Sampler (NUTS). Последние два особенно эффективны для многомерных моделей и реализованы в вероятностных языках программирования Stan и PyMC[1].

MCMC-методы асимптотически сходятся к точному апостериорному распределению, однако их вычислительная стоимость может быть высокой для моделей с большим числом параметров или большим объёмом данных.

Вариационный вывод

Вариационный байесовский вывод заменяет задачу вычисления апостериорного распределения задачей оптимизации в параметризованном семействе распределений q_\phi(\theta), минимизируя расстояние Кульбака — Лейблера \mathrm{KL}(q_\phi(\theta) \,\|\, p(\theta \mid \mathcal{D})). По сравнению с MCMC он обеспечивает существенно более высокую скорость вычислений ценой появления систематической ошибки аппроксимации.

Для масштабирования на большие наборы данных применяется стохастический вариационный вывод (англ. stochastic variational inference), использующий мини-пакеты данных и методы стохастической оптимизации[1]. Вариационный вывод широко используется в современных байесовских моделях, включая вариационные автокодировщики и байесовские нейронные сети.

Связь с другими подходами

Байесовский вывод имеет глубокие связи с методами машинного обучения, формально не позиционируемыми как байесовские.

  • Регуляризация. Максимизация апостериорной вероятности (MAP) в модели линейной регрессии с гауссовым априорным распределением на веса p(\mathbf{w}) = \mathcal{N}(0, \lambda^{-1} \mathbf{I}) в точности эквивалентна минимизации суммы квадратов ошибок с L_2-регуляризацией (гребневая регрессия). Лапласовское априорное распределение приводит к L_1-регуляризации (Lasso), поощряющей разреженные решения. Таким образом, многие классические приёмы машинного обучения допускают байесовскую интерпретацию[1].
  • Эмпирический байесовский подход (англ. empirical Bayes) оценивает параметры априорного распределения по самим данным, максимизируя маргинальное правдоподобие, и занимает промежуточное положение между частотной и полностью байесовской парадигмами.
  • Частотный вывод получает точечные оценки (например, метод максимального правдоподобия) и доверительные интервалы; в пределе больших выборок, при слабых априорных предположениях, байесовские и частотные выводы часто сближаются в силу теоремы Бернштейна — фон Мизеса (англ. Bernstein—von Mises theorem).

Критика и ограничения

Основной предмет критики байесовского вывода — неизбежная субъективность выбора априорного распределения. В ответ разработаны методологии объективных байесовских априорных (Джеффриса, референсные априорные, англ. reference priors), однако в многомерных задачах их выбор неоднозначен[1].

Второе важное ограничение — вычислительная сложность. Несмотря на революцию MCMC и вариационных методов, полный байесовский анализ современных глубоких нейронных сетей с миллионами параметров остаётся дорогостоящим и часто заменяется точечными оценками с приближённой оценкой неопределённости. Активные исследования в области байесовского глубокого обучения (англ. Bayesian deep learning) направлены на преодоление этого разрыва, разрабатывая такие методы, как MC Dropout, стохастические веса и глубокие гауссовские процессы[1].

Несмотря на эти вызовы, байесовский вывод продолжает оставаться «золотым стандартом» статистического рассуждения в условиях неопределённости, предоставляя как теоретическую основу для обучения, так и практически востребованные инструменты для анализа данных.

См. также

Примечания

Литература

Личные инструменты