Байесовский вывод

Материал из MachineLearning.

(Различия между версиями)

Текущая версия

Статья написана с использованием LLM DeepSeek-V4 и проверена участником Участник:Dan-Кhaiaa Lakpazhap 18:29, 30 июня 2026 (MSD).

Промпт приводится полностью в Обсуждение:Байесовский вывод.

Содержание

1 История
2 Основная идея
- 2.1 Байесовское оценивание и решающие правила
3 Байесовский вывод в статистике
- 3.1 Интервальное оценивание
- 3.2 Проверка гипотез и байесовский фактор
4 Байесовский вывод в машинном обучении
5 Вычислительные методы
- 5.1 Методы Монте-Карло в цепях Маркова
- 5.2 Вариационный вывод
6 Связь с другими подходами
7 Критика и ограничения
8 См. также
9 Примечания
10 Литература

Байе́совский вы́вод (англ. Bayesian inference) — метод статистического вывода, в котором теорема Байеса используется для пересмотра вероятности гипотезы по мере поступления новых свидетельств. Байесовский вывод составляет фундаментальную основу байесовской статистики и играет ключевую роль в современном машинном обучении, позволяя строить вероятностные модели, которые явно учитывают неопределённость параметров и прогнозов.

В машинном обучении байесовский вывод даёт стройный математический аппарат для решения задач обучения с учителем и без учителя, позволяя естественным образом объединять данные с экспертными знаниями, выполнять регуляризацию, проводить сравнение моделей (англ. model comparison) с помощью байесовского фактора и выдавать не только точечные прогнозы, но и меры неопределённости, критически важные в ответственных приложениях — от медицинской диагностики до беспилотных автомобилей.

История

Корни байесовского вывода восходят к работе Томаса Байеса (1702—1761), опубликованной посмертно в 1763 году под редакцией Ричарда Прайса^[1]. В этой работе был сформулирован частный случай теоремы, ныне носящей его имя. Независимо и в гораздо более общей форме теорему Байеса переоткрыл и систематически применил Пьер-Симон Лаплас в 1774 году, использовавший её для решения задач небесной механики, демографии и юриспруденции^[1]. Лаплас заложил основы того, что сегодня называется байесовским выводом: он явно вводил равномерное априорное распределение (принцип недостаточного основания) и вычислял апостериорные вероятности.

На протяжении XIX и начала XX века байесовские идеи использовались многими учёными, однако к 1920‑м годам доминирующим стал частотный подход, развитый Рональдом Фишером, Ежи Нейманом и Эгоном Пирсоном, критиковавшими субъективность выбора априорного распределения. Возрождение байесовского вывода началось в середине XX века благодаря работам Гарольда Джеффриса (объективное байесовское оценивание), Джимми Сэвиджа (аксиоматизация субъективной вероятности) и Денниса Линдли. Мощный импульс развитию дало появление вычислительных методов MCMC (англ. Markov chain Monte Carlo) в 1980—1990‑х годах, сделавших возможным численный расчёт апостериорных распределений для сложных многопараметрических моделей^[1]. В XXI веке байесовский вывод стал одним из столпов машинного обучения, а новые приближённые методы, такие как вариационный байесовский вывод (англ. variational Bayesian inference), позволили масштабировать его на огромные наборы данных и глубокие нейронные сети^[1].

Основная идея

В байесовском подходе параметры рассматриваются как случайные величины с заданным априорным распределением (англ. prior distribution), отражающим знания или предположения до наблюдения данных. После получения данных $\mathcal{D}$ априорное распределение обновляется до апостериорного распределения (англ. posterior distribution) по формуле Байеса:

$p(\theta \mid \mathcal{D}) = \frac{p(\mathcal{D} \mid \theta) \, p(\theta)}{p(\mathcal{D})},$

где:

$p(\theta)$ — априорное распределение — отражает информацию о параметрах до наблюдения данных. Может быть информативным (выражающим реальные экспертные знания), слабоинформативным или объективным (например, равномерное распределение, априорное распределение Джеффриса).
$p(\mathcal{D} \mid \theta)$ — функция правдоподобия — описывает вероятность получить наблюдаемые данные при фиксированном значении параметра, являясь связующим звеном между моделью и данными.
$p(\mathcal{D}) = \int p(\mathcal{D} \mid \theta) p(\theta) d\theta$ — маргинальное правдоподобие (англ. marginal likelihood, или evidence) — среднее значение правдоподобия по априорному распределению. Эта величина не зависит от $\theta$ и используется для нормализации, а также для сравнения моделей (см. байесовский фактор).
$p(\theta \mid \mathcal{D})$ — апостериорное распределение — итоговое представление о параметрах после учёта данных. Из него выводятся все байесовские оценки и прогнозы.

Прогноз для новых наблюдений $\tilde{x}$ вычисляется через прогностическое распределение (англ. posterior predictive distribution):

$p(\tilde{x} \mid \mathcal{D}) = \int p(\tilde{x} \mid \theta) \, p(\theta \mid \mathcal{D}) \, d\theta,$

которое в отличие от подстановки точечной оценки автоматически усредняет неопределённость по всем правдоподобным значениям параметров.

Если априорное распределение выбрано из сопряжённого семейства (англ. conjugate prior) к функции правдоподобия, то апостериорное распределение принадлежит тому же семейству, и обновление параметров сводится к простым алгебраическим действиям.

Пример (подбрасывание монеты). Пусть результатами являются независимые бернуллиевские случайные величины с неизвестной вероятностью орла $\theta \in [0,1]$ . Выберем априорное Бета-распределение $\mathrm{Beta}(\alpha, \beta)$ . После наблюдения $n$ бросков, в которых выпало $h$ орлов, апостериорное распределение также будет бета-распределением:

$p(\theta \mid \mathcal{D}) = \mathrm{Beta}(\alpha + h, \beta + n - h).$

Это наглядно показывает, как данные последовательно «обновляют» наши представления.

Байесовское оценивание и решающие правила

В байесовском выводе оценкой параметра часто служат характеристики апостериорного распределения: апостериорное среднее (минимизирует квадратичную функцию потерь), MAP-оценка (англ. maximum a posteriori estimation) — точка максимума апостериорной плотности, или апостериорная медиана (минимизирует абсолютную функцию потерь). В отличие от единичной MAP-оценки, полный байесовский подход использует всё апостериорное распределение для принятия решений и формирования прогнозов, что позволяет автоматически учитывать неопределённость.

Байесовский вывод в статистике

В классической статистике байесовский вывод предлагает альтернативный взгляд на задачи оценивания, проверки гипотез и сравнения моделей.

Интервальное оценивание

Вместо частотного доверительного интервала байесовский подход оперирует байесовским доверительным интервалом, или надёжным интервалом (англ. credible interval). Интервал уровня $(1 - \alpha)$ — это такой $[a,b]$ , что вероятность попадания параметра в него по апостериорному распределению равна $1 - \alpha$ :

$P(a \le \theta \le b \mid \mathcal{D}) = 1 - \alpha.$

Эта интерпретация непосредственно соответствует интуитивному пониманию «интервала неопределённости» и не требует ссылок на гипотетические повторные выборки.

Проверка гипотез и байесовский фактор

Сравнение двух конкурирующих моделей $M_1$ и $M_2$ проводится с помощью байесовского фактора (англ. Bayes factor):

$B_{12} = \frac{p(\mathcal{D} \mid M_1)}{p(\mathcal{D} \mid M_2)}.$

Байесовский фактор показывает, во сколько раз данные более вероятны при одной модели по сравнению с другой, и автоматически включает штраф за сложность модели (см. Бритва Оккама). Например, при сравнении полиномиальных регрессий разной степени байесовский фактор часто отдаёт предпочтение более простой модели, если усложнение не приводит к существенному росту правдоподобия^[1].

Байесовский вывод в машинном обучении

Байесовский вывод применяется в машинном обучении для построения вероятностных моделей, оценки неопределённости, выбора моделей и оптимизации гиперпараметров. Современные методы различаются как по типу используемых моделей, так и по способам приближённого вычисления апостериорного распределения.

Вероятностные модели

Наивный байесовский классификатор — простая, но эффективная модель классификации, основанная на предположении условной независимости признаков.
Байесовская сеть — направленное графическое представление совместного распределения большого числа переменных.
Гауссовский процесс — непараметрическое байесовское распределение над функциями, применяемое в регрессии и байесовской оптимизации.
Байесовская нейронная сеть — нейронная сеть, веса которой рассматриваются как случайные величины с апостериорным распределением.

Методы приближённого вывода

Приложения

Байесовская оптимизация — поиск экстремума дорогостоящих функций (в частности, подбор гиперпараметров алгоритмов машинного обучения).
Вариационный автокодировщик — генеративная модель, объединяющая идеи вариационного вывода и глубокого обучения^[1].

Вычислительные методы

В общем случае вычисление апостериорного распределения, маргинального правдоподобия и прогностического распределения требует вычисления многомерных интегралов, не имеющих, как правило, аналитического решения. Для приближённого байесовского вывода применяются два основных класса методов: методы Монте-Карло в цепях Маркова и вариационный вывод.

Методы Монте-Карло в цепях Маркова

Методы Монте-Карло в цепях Маркова (англ. Markov chain Monte Carlo, MCMC) строят марковскую цепь, стационарное распределение которой совпадает с целевым апостериорным распределением $p(\theta \mid \mathcal{D})$ . После достижения стационарности выборка из цепи используется для оценки математических ожиданий, квантилей и прогностических распределений.

К наиболее распространённым алгоритмам относятся алгоритм Метрополиса — Гастингса, сэмплирование по Гиббсу, гамильтонов метод Монте-Карло (HMC) и алгоритм No-U-Turn Sampler (NUTS). Последние два особенно эффективны для многомерных моделей и реализованы в вероятностных языках программирования Stan и PyMC^[1].

MCMC-методы асимптотически сходятся к точному апостериорному распределению, однако их вычислительная стоимость может быть высокой для моделей с большим числом параметров или большим объёмом данных.

Вариационный вывод

Вариационный байесовский вывод заменяет задачу вычисления апостериорного распределения задачей оптимизации в параметризованном семействе распределений $q_\phi(\theta)$ , минимизируя расстояние Кульбака — Лейблера $\mathrm{KL}(q_\phi(\theta) \,\|\, p(\theta \mid \mathcal{D}))$ . По сравнению с MCMC он обеспечивает существенно более высокую скорость вычислений ценой появления систематической ошибки аппроксимации.

Для масштабирования на большие наборы данных применяется стохастический вариационный вывод (англ. stochastic variational inference), использующий мини-пакеты данных и методы стохастической оптимизации^[1]. Вариационный вывод широко используется в современных байесовских моделях, включая вариационные автокодировщики и байесовские нейронные сети.

Связь с другими подходами

Байесовский вывод имеет глубокие связи с методами машинного обучения, формально не позиционируемыми как байесовские.

Регуляризация. Максимизация апостериорной вероятности (MAP) в модели линейной регрессии с гауссовым априорным распределением на веса $p(\mathbf{w}) = \mathcal{N}(0, \lambda^{-1} \mathbf{I})$ в точности эквивалентна минимизации суммы квадратов ошибок с $L_2$ -регуляризацией (гребневая регрессия). Лапласовское априорное распределение приводит к $L_1$ -регуляризации (Lasso), поощряющей разреженные решения. Таким образом, многие классические приёмы машинного обучения допускают байесовскую интерпретацию^[1].
Эмпирический байесовский подход (англ. empirical Bayes) оценивает параметры априорного распределения по самим данным, максимизируя маргинальное правдоподобие, и занимает промежуточное положение между частотной и полностью байесовской парадигмами.
Частотный вывод получает точечные оценки (например, метод максимального правдоподобия) и доверительные интервалы; в пределе больших выборок, при слабых априорных предположениях, байесовские и частотные выводы часто сближаются в силу теоремы Бернштейна — фон Мизеса (англ. Bernstein—von Mises theorem).

Критика и ограничения

Основной предмет критики байесовского вывода — неизбежная субъективность выбора априорного распределения. В ответ разработаны методологии объективных байесовских априорных (Джеффриса, референсные априорные, англ. reference priors), однако в многомерных задачах их выбор неоднозначен^[1].

Второе важное ограничение — вычислительная сложность. Несмотря на революцию MCMC и вариационных методов, полный байесовский анализ современных глубоких нейронных сетей с миллионами параметров остаётся дорогостоящим и часто заменяется точечными оценками с приближённой оценкой неопределённости. Активные исследования в области байесовского глубокого обучения (англ. Bayesian deep learning) направлены на преодоление этого разрыва, разрабатывая такие методы, как MC Dropout, стохастические веса и глубокие гауссовские процессы^[1].

Несмотря на эти вызовы, байесовский вывод продолжает оставаться «золотым стандартом» статистического рассуждения в условиях неопределённости, предоставляя как теоретическую основу для обучения, так и практически востребованные инструменты для анализа данных.

См. также

Примечания

Литература

Gelman A., Carlin J. B., Stern H. S., Dunson D. B., Vehtari A., Rubin D. B. Bayesian Data Analysis. — 3rd ed.. — CRC Press, 2013. — ISBN 978-1439840955
Bishop C. M. Pattern Recognition and Machine Learning. — Springer, 2006. — ISBN 978-0387310732
Murphy K. P. Machine Learning: A Probabilistic Perspective. — MIT Press, 2012. — ISBN 978-0262018029
MacKay D. J. C. Information Theory, Inference, and Learning Algorithms. — Cambridge University Press, 2003. — ISBN 978-0521642989
Robert C. P. The Bayesian Choice. — 2nd ed.. — Springer, 2007. — ISBN 978-0387715988
Bernardo J. M., Smith A. F. M. Bayesian Theory. — Wiley, 2009. — ISBN 978-0471494645
Kingma D. P., Welling M. Auto-Encoding Variational Bayes // International Conference on Learning Representations (ICLR). — 2014.
Blundell C., Cornebise J., Kavukcuoglu K., Wierstra D. Weight Uncertainty in Neural Networks // International Conference on Machine Learning (ICML). — 2015.
Hoffman M. D., Blei D. M., Wang C., Paisley J. Stochastic Variational Inference // Journal of Machine Learning Research. — 2013. — Т. 14. — С. 1303—1347.
Snoek J., Larochelle H., Adams R. P. Practical Bayesian Optimization of Machine Learning Algorithms // Advances in Neural Information Processing Systems (NeurIPS). — 2012.
Gal Y., Ghahramani Z. Dropout as a Bayesian Approximation: Representing Model Uncertainty in Deep Learning // International Conference on Machine Learning (ICML). — 2016.
Garnelo M., Schwarz J., Rosenbaum D., Viola F., Rezende D. J. et al. Neural Processes // ICML Workshop on Theoretical Foundations and Applications of Deep Generative Models. — 2018.
Wilson A. G., Izmailov P. Bayesian Deep Learning and a Probabilistic Perspective of Generalization // Advances in Neural Information Processing Systems (NeurIPS). — 2020.

Источник — «http://www.recognition.su/wiki/index.php?title=%D0%91%D0%B0%D0%B9%D0%B5%D1%81%D0%BE%D0%B2%D1%81%D0%BA%D0%B8%D0%B9_%D0%B2%D1%8B%D0%B2%D0%BE%D0%B4»

Категории: Машинное обучение | Теория вероятностей | Математическая статистика