MachineLearning - Новые страницы [ru]

Контекстное обучение

2026-06-25T15:59:43Z

Описание изменений: Новая: {{well|Статья написана с использованием LLM '''Gemini 3.1 Pro''' и проверена участником [[Участник:Renal Gazizullin|Renal Gazizul...

{{well|Статья написана с использованием LLM '''Gemini 3.1 Pro''' и проверена участником [[Участник:Renal Gazizullin|Renal Gazizullin]] 19:00, 25 июня 2026 (MSD)}}
'''Контекстное обучение''' (In-Context Learning / ICL) — парадигма работы [[Большие языковые модели|больших языковых моделей]] (LLM), при которой адаптация к новой задаче происходит исключительно за счет модификации входного промпта (контекста) без изменения весовых коэффициентов нейросети. Феномен ICL является [[Эмерджентность|эмерджентным свойством]], проявляющимся при масштабировании емкости моделей и объемов обучающих выборок.

== Формальная математическая постановка ==
Пусть задана предобученная языковая модель с неизменяемыми параметрами <tex>\theta</tex>. В рамках авторегрессионного моделирования текста задача контекстного обучения формулируется как задача условного предсказания целевого токена <tex>y_t</tex> на основе префикса, содержащего <tex>k</tex> демонстрационных пар «вход-выход» (примеров) и нового целевого запроса <tex>x_t</tex>:
:: <tex>P(y_t \mid x_1, y_1, x_2, y_2, \dots, x_k, y_k, x_t; \theta)</tex>

Здесь подпоследовательность <tex>D_k = (x_1, y_1, \dots, x_k, y_k)</tex> представляет собой обучающий контекст (обучающую выборку задачи), а распределение вероятностей вычисляется без применения [[Градиентный спуск|градиентного спуска]] или иных методов явной оптимизации функционала ошибки на этапе инференса.

== Различие между контекстным обучением и классическим дообучением ==
Специфика ICL наиболее отчетливо проявляется в сравнении с классическим дообучением ([[Fine-tuning]]) и настройкой промптов ([[Prompt Tuning]]):
* '''Вычислительный граф и обновление параметров:''' При классическом fine-tuning граф вычислений включает как прямой, так и обратный проход (backpropagation). Параметры модели модифицируются: <tex>\theta_{new} = \theta_{old} - \eta \nabla_\theta \mathcal{L}</tex>. При ICL граф вычислений ограничен исключительно прямым проходом (forward pass). Перенос знаний и адаптация к задаче реализуются динамически через изменение латентных представлений (активаций) внутри [[Механизм внимания (attention mechanism)|механизма внимания]].
* '''Ресурсная емкость:''' Fine-tuning требует существенных вычислительных затрат на хранение градиентов и состояний оптимизатора, но минимизирует длину контекста при инференсе. ICL не требует затрат на обучение, однако накладывает вычислительную нагрузку порядка <tex>\mathcal{O}(N^2)</tex> (для стандартной архитектуры [[Трансформер (архитектура нейросетей)|Transformer]]) из-за квадратичной зависимости стоимости вычисления внимания от длины контекста, увеличивающейся за счет демонстрационных примеров.

== Теоретические механизмы (Физика процесса) ==
Механистическое объяснение природы ICL в современных работах ведется по двум комплементарным направлениям: механистическая интерпретируемость и оптимизационный анализ.

=== Индукционные головки (Induction Heads) ===
С точки зрения анализа микроархитектуры трансформеров, ключевым биологическим субстратом ICL выступают так называемые индукционные головки (induction heads) <ref>Olsson C. et al. In-context learning and induction heads // arXiv preprint arXiv:2209.11895. — 2022.</ref>. Это специализированные паттерны внимания в глубоких слоях сети, реализующие двухэтапный алгоритм копирования префиксов:
# Головка ищет в контексте токены, аналогичные текущему токену <tex>A</tex>.
# Она направляет внимание на токен <tex>B</tex>, следовавший непосредственно за <tex>A</tex> в прошлых упоминаниях, и увеличивает вероятность его генерации в текущей позиции.
Эмпирически показано, что появление индукционных головок во время предобучения строго совпадает по времени с резким скачком способности модели к контекстному обучению (фазовый переход).

=== Оптимизационный взгляд: имплицитный градиентный спуск ===
Альтернативный теоретический подход постулирует, что механизм сквозного внимания (Self-Attention) во время прямого прохода математически эквивалентен выполнению шагов линейного градиентного спуска над имплицитными весами, закодированными в активациях <ref>von Oswald J. et al. Transformers learn in-context by gradient descent // International Conference on Machine Learning. — PMLR, 2023. — С. 35151-35174.</ref><ref>Dai D. et al. Why can gpt learn in-context? language models implicitly perform gradient descent as meta-optimizers // arXiv preprint arXiv:2212.10559. — 2022.</ref>.
Если представить слой внимания без функции активации Softmax (Linear Attention), то вычисление проекций можно переписать как операцию обновления мета-параметров. Пусть матрицы проекций <tex>W_K, W_V</tex> кодируют демонстрационные примеры. Тогда вычисление внимания для нового запроса эквивалентно применению оператора, минимизирующего среднеквадратичную ошибку (MSE) на контексте:
:: <tex>\Delta W = \sum_{i=1}^k (W_V x_i - W_K x_i) x_i^T</tex>
Таким образом, трансформер выступает в роли мета-оптимизатора, где активации слоев переносят «мета-градиенты», адаптирующие имплицитную модель под текущую задачу без физического изменения глобальных весов <tex>\theta</tex>.

== Эмпирические свойства и аномалии ==
Несмотря на высокую эффективность, ICL характеризуется рядом контринтуитивных аномалий, указывающих на фундаментальные отличия от классического обучения по выборке:
* '''Феномен «Rethinking the Role of Demonstrations»:''' В классической работе Мин и соавторов было обнаружено, что замена истинных меток <tex>y_i</tex> в демонстрационном контексте на случайные или инвертированные слабо влияет на итоговое качество предсказания модели на многих задачах <ref>Min S. et al. Rethinking the role of demonstrations: What makes in-context learning work? // Proceedings of the 2022 Conference on Empirical Methods in Natural Language Processing. — 2022. — С. 11048-11064.</ref>. Основной вклад демонстраций заключается в задании формата ввода, демонстрации распределения входных признаков <tex>x</tex> и очерчивании пространства допустимых ответов, а не в фиксации точного семантического отображения <tex>X \to Y</tex>.
* '''Чувствительность к порядку примеров (Recency Bias):''' Перестановка демонстрационных пар местами способна изменить метрику качества (например, accuracy) от уровня случайного угадывания до уровня State-of-the-Art <ref>Lu Y. et al. Fantastically ordered prompts and where to find them: Overcoming few-shot prompt order sensitivity // Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics. — 2022. — С. 8086-8098.</ref>. Модели склонны отдавать приоритет примерам, расположенным ближе к целевому запросу <tex>x_t</tex>.

== Литература ==
<references/>

[[Категория:Большие языковые модели]]
[[Категория:Энциклопедия анализа данных]]

Flow Matching

2026-06-25T15:45:04Z

{{well|Статья написана с использованием LLM '''Gemini 3.1 Pro''' и проверена участником [[Участник:Renal Gazizullin|Renal Gazizullin]] 18:50, 25 июня 2026 (MSD)}}
'''Flow Matching''' (Сопоставление потоков) — метод обучения [[Генеративные модели|генеративных моделей]], основанный на непрерывных нормализующих потоках (Continuous Normalizing Flows, CNF), который позволяет аппроксимировать распределения данных с помощью детерминированных [[Обыкновенные дифференциальные уравнения|обыкновенных дифференциальных уравнений]] (ОДУ). В отличие от классических [[Диффузионные модели|диффузионных моделей]], использующих стохастические дифференциальные уравнения, Flow Matching работает напрямую с векторными полями, обеспечивая построение прямолинейных траекторий генерации, что существенно снижает вычислительные затраты на этапе сэмплинга<ref>Lipman Y., Chen R. T. Q., Ben-Hamu H., Nickel M., Le M. Flow Matching for Generative Modeling // arXiv preprint arXiv:2210.02747. — 2022.</ref>.

== Введение и концепция пуш-аут распределений ==
В основе метода лежит концепция пуш-аут (push-forward) распределения вероятностей. Пусть задано простое базовое распределение <tex>p_0(x)</tex> (как правило, стандартное гауссово распределение <tex>\mathcal{N}(0, \mathbf{I})</tex>) в пространстве <tex>\mathbb{R}^d</tex>, и целевое распределение данных <tex>p_1(x)</tex>. Задача [[Непрерывные нормализующие потоки|непрерывных нормализующих потоков]] заключается в поиске зависящего от времени векторного поля <tex>v_t(x): [0, 1] \times \mathbb{R}^d \to \mathbb{R}^d</tex>, которое определяет траектории диффеоморфизма <tex>\phi_t(x)</tex> посредством автономного ОДУ:
:: <tex>\frac{d}{dt}\phi_t(x) = v_t(\phi_t(x)), \quad \phi_0(x) = x.</tex>

Диффеоморфизм <tex>\phi_t</tex> переносит базовую плотность в зависящий от времени путь плотностей <tex>p_t(x)</tex>. В момент времени <tex>t=1</tex> распределение <tex>p_1(x)</tex> должно аппроксимировать эмпирическое распределение данных <tex>q(x)</tex>.

== Математическая постановка задачи Flow Matching ==
Пусть задан фиксированный путь плотностей <tex>p_t(x)</tex> для <tex>t \in [0, 1]</tex> и соответствующее ему векторное поле <tex>v_t(x)</tex>. Связь между плотностью и векторным полем жестко задается уравнением непрерывности (continuity equation):
:: <tex>\frac{\partial p_t(x)}{\partial t} + \nabla \cdot (p_t(x) v_t(x)) = 0,</tex>
где <tex>\nabla \cdot</tex> обозначает дивергенцию векторного поля.

Если бы целевое векторное поле <tex>v_t(x)</tex> было известно, то задача аппроксимации сводилась бы к минимизации функционала Flow Matching:
:: <tex>\mathcal{L}_{\text{FM}}(\theta) = \mathbb{E}_{t \sim \mathcal{U}[0, 1], x \sim p_t(x)} \left[ \| v_\theta(t, x) - v_t(x) \|^2 \right],</tex>
где <tex>v_\theta(t, x)</tex> — параметризованная нейросеть (векторное поле). Однако данный лосс невычислим в практических задачах, поскольку истинный путь плотностей <tex>p_t(x)</tex> и соответствующее поле <tex>v_t(x)</tex>, порождающие распределение данных, неизвестны.

== Conditional Flow Matching (CFM) ==
Для преодоления проблемы невычислимости вводится метод условного сопоставления потоков (Conditional Flow Matching, CFM)<ref>Albergo M. S., Vanden-Eijnden E. Building Normalizing Flows with Stochastic Interpolants // arXiv preprint arXiv:2209.15571. — 2022.</ref>. Вместо работы с маргинальными распределениями, траектории строятся относительно конкретного обуславливающего объекта (например, объекта выборки <tex>x_1 \sim q(x_1)</tex>).

Определим условный путь плотностей <tex>p_t(x|x_1)</tex> и условное векторное поле <tex>v_t(x|x_1)</tex>, удовлетворяющие условному уравнению непрерывности:
:: <tex>\frac{\partial p_t(x|x_1)}{\partial t} + \nabla \cdot (p_t(x|x_1) v_t(x|x_1)) = 0.</tex>

Маргинальные величины выражаются через условные с помощью интегрирования по распределению данных:
:: <tex>p_t(x) = \int p_t(x|x_1) q(x_1) dx_1,</tex>
:: <tex>v_t(x) = \frac{1}{p_t(x)} \int v_t(x|x_1) p_t(x|x_1) q(x_1) dx_1.</tex>

Функционал Conditional Flow Matching имеет вид:
:: <tex>\mathcal{L}_{\text{CFM}}(\theta) = \mathbb{E}_{t \sim \mathcal{U}[0, 1], x_1 \sim q(x_1), x \sim p_t(x|x_1)} \left[ \| v_\theta(t, x) - v_t(x|x_1) \|^2 \right].</tex>

Важнейший теоретический результат Flow Matching состоит в том, что условный лосс и исходный лосс эквивалентны с точностью до константы, независимой от параметров модели, и их градиенты по <tex>\theta</tex> совпадают:
:: <tex>\nabla_\theta \mathcal{L}_{\text{FM}}(\theta) = \nabla_\theta \mathcal{L}_{\text{CFM}}(\theta).</tex>

Поскольку условные формы <tex>p_t(x|x_1)</tex> и <tex>v_t(x|x_1)</tex> выбираются аналитически (например, в виде гауссовских переходов), функционал <tex>\mathcal{L}_{\text{CFM}}(\theta)</tex> становится полностью вычислимым.

== Оптимальный транспорт во Flow Matching (OT-FM) ==
Выбор условного пути распределений определяет геометрические свойства траекторий ОДУ. В стандартном случае гауссовских условных путей, с обусловливанием как на начальную точку <tex>x_0 \sim p_0(x_0)</tex>, так и на конечную <tex>x_1 \sim q(x_1)</tex>, условная плотность задается как:
:: <tex>p_t(x|x_0, x_1) = \mathcal{N}(x | \mu_t(x_0, x_1), \sigma_t^2 \mathbf{I}).</tex>

Для реализации концепции [[Оптимальный транспорт|оптимального транспорта]] (Optimal Transport Flow Matching, OT-FM) выбираются линейная интерполяция средних значений и постоянная дисперсия<ref>Liu Q., Lemmon D., Du M. Rectified Flow: A Marginal Preserving Approach to Optimal Transport // arXiv preprint arXiv:2209.14577. — 2022.</ref>:
:: <tex>\mu_t(x_0, x_1) = t x_1 + (1 - t) x_0,</tex>
:: <tex>\sigma_t(x_0, x_1) = \sigma_0,</tex>
где <tex>\sigma_0</tex> — малое скалярное значение, гарантирующее регуляризацию шума.

Тогда условное векторное поле принимает максимально простой вид, не зависящий от времени напрямую:
:: <tex>v_t(x|x_0, x_1) = x_1 - x_0.</tex>

Использование OT-FM гарантирует, что индивидуальные условные траектории представляют собой прямые линии, соединяющие <tex>x_0</tex> и <tex>x_1</tex>. Это минимизирует полную кинетическую энергию потока:
:: <tex>\int_0^1 \mathbb{E}_{p_t(x)} [\|v_t(x)\|^2] dt \to \min,</tex>
что математически связывает данный подход с Монжевской задачей оптимального транспорта. На практике прямолинейность траекторий минимизирует кривизну маргинального векторного поля <tex>v_t(x)</tex>.

== Сравнение с диффузионными моделями ==
Flow Matching обладает рядом преимуществ перед классическими [[Диффузионные модели|диффузионными моделями]] (такими как DDPM или SDE-подходы Сонга):

# '''Детерминированность траекторий:''' Вместо стохастических дифференциальных уравнений, требующих добавления шума на каждом шаге, генерация во Flow Matching реализуется через ОДУ (Probability Flow ODE). Это исключает случайность в процессе сэмплинга при фиксированном начальном шуме.
# '''Прямолинейность и скорость сэмплинга:''' В диффузионных моделях траектории сильно искривлены из-за дисперсионного расписания (variance schedule). Для их интегрирования требуются десятки и сотни шагов. Траектории OT-FM близки к прямым линиям, что позволяет использовать простейшие численные методы (например, метод Эйлера) с малым количеством шагов (вплоть до 4–10 шагов без потери качества).
# '''Отсутствие сингулярности в решении:''' Метод не требует бесконечного уровня шума или бесконечной скорости изменения в начальный момент времени, что стабилизирует процесс обучения численными методами.

== Литература ==
<references/>

[[Категория:Генеративные модели]]
[[Категория:Энциклопедия анализа данных]]

Обсуждение публикации:SCAN: Learning to Classify Images Without Labels

2026-06-25T15:29:22Z

Описание изменений: Полностью удалено содержимое страницы

Алгоритмы редукции дисперсии (SAGA, SVRG, SARAH)

2026-06-25T15:02:35Z

Описание изменений:

{{well|Статья написана с использованием LLM '''Gemini 3.1 Pro''' и проверена участником [[Участник:Renal Gazizullin|Renal Gazizullin]] 18:10, 25 июня 2026 (MSD)}}
== Введение ==
Обучение большинства моделей машинного обучения формализуется как задача [[Выпуклая оптимизация|выпуклой оптимизации]] на конечной сумме (Finite-Sum Minimization):
:: <tex>\min_{w \in \mathbb{R}^d} F(w) = \frac{1}{n} \sum_{i=1}^n f_i(w)</tex>
где <tex>f_i(w)</tex> — функция потерь на <tex>i</tex>-м объекте выборки. Очевидно, что вычисление полного градиента <tex>\nabla F(w)</tex> на каждом шаге требует <tex>O(nd)</tex> операций, что делает классический градиентный спуск практически бесполезным на больших данных. Наивный [[Стохастический градиентный спуск|SGD]] решает вычислительную проблему, используя градиент по одному случайно выбранному объекту <tex>\nabla f_{i_t}(w_t)</tex>. Будучи несмещенной оценкой матожидания (<tex>\mathbb{E}[\nabla f_{i_t}(w_t)] = \nabla F(w_t)</tex>), такой стохастический градиент обладает неустранимой дисперсией <tex>\sigma^2 > 0</tex>. Шум градиента не исчезает даже в точке глобального оптимума <tex>w^*</tex>. Это вынуждает асимптотически уменьшать длину шага <tex>\eta_t \to 0</tex>, что фатально снижает скорость сходимости до сублинейной <tex>O(1/T)</tex>. Алгоритмы редукции дисперсии устраняют этот недостаток, позволяя использовать постоянный шаг и достигать линейной сходимости.

== Общая концепция редукции дисперсии ==
В основе семейства методов (SVRG, SAGA, SARAH) лежит статистический прием контрольных переменных (control variates). Конструируется новая оценка градиента <tex>v_t</tex>, использующая сильно коррелированную вспомогательную переменную, матожидание которой известно:
:: <tex>v_t = \nabla f_{i_t}(w_t) - \nabla f_{i_t}(\tilde{w}) + \nabla F(\tilde{w})</tex>
где <tex>\tilde{w}</tex> — точка «привязки» (снапшот), полный градиент в которой <tex>\nabla F(\tilde{w})</tex> вычисляется периодически. При сходимости <tex>w_t \to w^*</tex> и <tex>\tilde{w} \to w^*</tex> разность <tex>\nabla f_{i_t}(w_t) - \nabla f_{i_t}(\tilde{w}</tex> стремится к нулю, а дисперсия <tex>\mathbb{E}[\|v_t - \nabla F(w_t)\|^2] \to 0</tex>.

== Алгоритм SVRG ==
SVRG (Stochastic Variance Reduced Gradient)<ref>Johnson, R., & Zhang, T. (2013). Accelerating stochastic gradient descent using predictive variance reduction. NeurIPS.</ref> использует жесткую стратегию эпох. В начале каждой эпохи фиксируется точка <tex>\tilde{w}</tex>, вычисляется ресурсоемкий полный градиент <tex>\nabla F(\tilde{w})</tex>, после чего выполняется внутренний цикл из <tex>m</tex> стохастических шагов.

Псевдокод SVRG:
* Инициализация: <tex>\tilde{w}_0</tex>
* Для эпох <tex>s = 1, 2, \dots, S</tex>:
** <tex>\tilde{w} = \tilde{w}_{s-1}</tex>
** <tex>\mu = \frac{1}{n} \sum_{i=1}^n \nabla f_i(\tilde{w})</tex>
** <tex>w_0 = \tilde{w}</tex>
** Для <tex>t = 0, 1, \dots, m-1</tex>:
*** Выбрать индекс <tex>i_t \in \{1, \dots, n\}</tex> равномерно случайно.
*** Вычислить скорректированный градиент: <tex>v_t = \nabla f_{i_t}(w_t) - \nabla f_{i_t}(\tilde{w}) + \mu</tex>
*** Шаг: <tex>w_{t+1} = w_t - \eta v_t</tex>
** <tex>\tilde{w}_s = w_m</tex>

Для <tex>L</tex>-гладкой и <tex>\mu</tex>-сильно выпуклой функции SVRG сходится с экспоненциальной скоростью, требуя <tex>O((n + L/\mu) \log(1/\epsilon))</tex> вычислений градиентов <tex>f_i</tex> для достижения <tex>\epsilon</tex>-точности. Главное преимущество — константные требования к памяти <tex>O(d)</tex>.

== Алгоритм SAGA ==
SAGA<ref>Defazio, A., Bach, F., & Lacoste-Julien, S. (2014). SAGA: A fast incremental gradient method with support for non-strongly convex composite objectives. NeurIPS.</ref> избавляется от концепции эпох и двойных циклов, но требует хранения информации о градиентах каждого объекта.

Псевдокод SAGA:
* Инициализация <tex>w_0</tex> и таблицы градиентов <tex>g_i = \nabla f_i(w_0)</tex> для <tex>i = 1, \dots, n</tex>. Среднее <tex>\bar{g} = \frac{1}{n} \sum_{i=1}^n g_i</tex>.
* Для <tex>t = 0, 1, \dots</tex>:
** Выбрать <tex>i_t</tex> случайно.
** Вычислить: <tex>v_t = \nabla f_{i_t}(w_t) - g_{i_t} + \bar{g}</tex>
** Сделать шаг: <tex>w_{t+1} = w_t - \eta v_t</tex>
** Обновить среднее: <tex>\bar{g} \leftarrow \bar{g} + \frac{1}{n}(\nabla f_{i_t}(w_t) - g_{i_t})</tex>
** Обновить элемент таблицы: <tex>g_{i_t} \leftarrow \nabla f_{i_t}(w_t)</tex>

Скорость сходимости идентична SVRG. Очевидный недостаток: метод требует <tex>O(nd)</tex> памяти для хранения таблицы. Однако для широкого класса обобщенных линейных моделей, где <tex>f_i(w) = \ell(x_i^T w)</tex>, достаточно хранить скаляры <tex>\nabla \ell</tex>, что тривиально редуцирует память до <tex>O(n)</tex>.

== Алгоритм SARAH ==
SARAH (StochAstic Recursive grAdient algoritHm)<ref>Nguyen, L. M., et al. (2017). SARAH: A novel method for machine learning problems using stochastic recursive gradient. ICML.</ref> предлагает принципиально иную, рекурсивную оценку:
:: <tex>v_t = \nabla f_{i_t}(w_t) - \nabla f_{i_t}(w_{t-1}) + v_{t-1}</tex>
В отличие от SAGA и SVRG, оценка SARAH смещена (<tex>\mathbb{E}[v_t] \neq \nabla F(w_t)</tex>). Несмотря на это, метод обеспечивает монотонное убывание нормы градиента <tex>\mathbb{E}[\|v_t\|^2] \to 0</tex>. SARAH стал стандартом де-факто для невыпуклых задач (например, обучения глубоких сетей без Batch Normalization), поскольку доставляет сложность <tex>O(n + \sqrt{n}/\epsilon^2)</tex> для нахождения стационарной точки первого порядка, опережая <tex>O(n + n^{2/3}/\epsilon^2)</tex> у базового SVRG.

== Практическое применение: Проксимальный вариант SAGA для LASSO ==
В задачах с негладкими регуляризаторами редукция дисперсии напрямую комбинируется с [[Проксимальный градиентный спуск|проксимальными методами]]. Рассмотрим задачу LASSO:
:: <tex>\min_{w} \frac{1}{n} \sum_{i=1}^n f_i(w) + h(w)</tex>
где гладкая часть <tex>f_i(w) = \frac{1}{2} (x_i^T w - y_i)^2</tex>, а регуляризатор <tex>h(w) = \lambda \|w\|_1</tex>. Шаг проксимального SAGA формализуется так:
:: <tex>w_{t+1} = \text{prox}_{\eta h}(w_t - \eta v_t)</tex>
Для <tex>\ell_1</tex>-нормы проксимальный оператор имеет замкнутую форму и известен как оператор мягкого порога (Soft Thresholding):
:: <tex>S_{\eta \lambda}(z)_j = \text{sign}(z_j) \max(|z_j| - \eta \lambda, 0)</tex>

Строгий математический разбор шага SAGA-LASSO:
# Оценивается стохастический градиент только гладкой части: <tex>v_t = x_{i_t} (x_{i_t}^T w_t - y_{i_t}) - g_{i_t} + \bar{g}</tex>.
# Выполняется смещение по направлению антиградиента: <tex>z_t = w_t - \eta v_t</tex>.
# Отсекается шум и индуцируется разреженность (покомпонентно): <tex>w_{t+1} = S_{\eta \lambda}(z_t)</tex>.
# Скалярное произведение <tex>x_{i_t}^T w_{t+1}</tex> сохраняется, таблица градиентов <tex>g_{i_t}</tex> и вектор <tex>\bar{g}</tex> обновляются.
Такой подход позволяет находить строгий оптимум <tex>w^*</tex> с нулевыми компонентами на линейной скорости, недостижимой для субградиентных методов.

== Сравнение алгоритмов ==
Сводка вычислительных компромиссов для сильно выпуклых гладких задач.
{| class="wikitable"
|-
! Алгоритм !! Пространственная сложность !! Сложность (кол-во <tex>\nabla f_i</tex> для <tex>\epsilon</tex>) !! Требует настройки эпох !! Смещение <tex>v_t</tex>
|-
| SGD || <tex>O(d)</tex> || <tex>O(1/\epsilon)</tex> || Нет || Нет
|-
| SVRG || <tex>O(d)</tex> || <tex>O((n + L/\mu) \log(1/\epsilon))</tex> || Да || Нет
|-
| SAGA || <tex>O(nd)</tex> || <tex>O((n + L/\mu) \log(1/\epsilon))</tex> || Нет || Нет
|-
| SARAH || <tex>O(d)</tex> || <tex>O((n + L/\mu) \log(1/\epsilon))</tex> || Да || Да
|}
<tex>m</tex>.

== Литература ==
<references/>

[[Категория:Методы оптимизации]]
[[Категория:Энциклопедия анализа данных]]
[[Категория:Машинное обучение]]
[[Категория:Математическая оптимизация]]

Ускоренный градиент Нестерова

2026-06-25T09:11:42Z

Описание изменений:

{{well|Статья написана с использованием LLM и проверена участником [[Участник:Arina Pakalova|Arina Pakalova]] 14:54, 25 июня 2026 (MSD)}}
'''Ускоренный градиент Нестерова''' (англ. ''Nesterov accelerated gradient'', NAG) — семейство оптимальных по порядку итеративных методов первого порядка для решения задач [[Выпуклая оптимизация|выпуклой оптимизации]]. Метод обеспечивает достижение нижней оценки сложности для класса гладких выпуклых задач, равной <tex>O(1/k^2)</tex>, где <tex>k</tex> — номер итерации<ref name="Nesterov1983">Нестеров Ю. Е. Метод решения задачи выпуклого программирования со скоростью сходимости <tex>O(1/k^2)</tex> // Доклады Академии Наук. — 1983. — Т. 269, № 3. — С. 543–547.</ref>.

== Определение и актуальность в теории оптимизации ==
В середине 1980-х годов Ю. Е. Нестеровым была доказана нижняя оценка скорости сходимости для класса гладких выпуклых задач минимизации, показывающая, что ни один метод первого порядка не может гарантировать скорость сходимости быстрее, чем <tex>O(1/k^2)</tex>. До этой работы стандартный [[Градиентный спуск|градиентный спуск]] обеспечивал лишь скорость <tex>O(1/k)</tex>.

Ускоренный градиент Нестерова является первым алгоритмом, достигающим этой теоретической нижней границы, что делает его '''оптимальным''' в смысле теории вычислительной сложности черного ящика (first-order black-box optimization)<ref name="Bubeck2015">Bubeck S. Convex Optimization: Algorithms and Complexity. // Foundations and Trends in Machine Learning. — 2015. — Vol. 8, No. 3-4. — P. 231–357.</ref>. В дальнейшем концепция «ускорения» была обобщена на широкий класс невыпуклых, вариационных и стохастических задач, став фундаментальным строительным блоком современных алгоритмов машинного обучения (например, алгоритма FISTA)<ref name="FISTA">Beck A., Teboulle M. A fast iterative shrinkage-thresholding algorithm for linear inverse problems // SIAM Journal on Imaging Sciences. — 2009. — Vol. 2, no. 1. — P. 183–202.</ref>.

== Постановка задачи ==
Рассмотрим задачу безусловной минимизации:
<tex>
\min_{x \in \mathbb{R}^n} f(x),
</tex>
где целевая функция <tex>f: \mathbb{R}^n \to \mathbb{R}</tex> удовлетворяет следующим условиям:

# '''[[Выпуклая функция|Выпуклость]]''': для любых <tex>x, y \in \mathbb{R}^n</tex> выполняется <tex>f(y) \ge f(x) + \langle \nabla f(x), y - x \rangle</tex>.
# '''[[Условие Липшица|Гладкость]]''': градиент функции является [[Липшицева непрерывность|липшицевым]] с константой <tex>L > 0</tex>, то есть для любых <tex>x, y \in \mathbb{R}^n</tex>:
<tex>
\|\nabla f(x) - \nabla f(y)\| \le L \|x - y\|.
</tex>
Эквивалентное условие гладкости:
<tex>
f(y) \le f(x) + \langle \nabla f(x), y - x \rangle + \frac{L}{2} \|x - y\|^2.
</tex>

Пусть <tex>x^*</tex> — точка минимума функции <tex>f(x)</tex>, а <tex>f^* = f(x^*)</tex> — глобальное минимальное значение.

== Описание метода ==
Классический вариант метода (1983 г.) генерирует две последовательности: основную точку <tex>x_k</tex> и вспомогательную (экстраполированную) точку <tex>y_k</tex>.

'''Алгоритм:'''
* '''Инициализация:''' <tex>y_0 = x_0 \in \mathbb{R}^n</tex>.
* '''Итерация''' <tex>k = 0, 1, 2, \dots</tex>:
<tex>
\begin{cases}
x_{k+1} = y_k - \frac{1}{L} \nabla f(y_k), \\
y_{k+1} = x_{k+1} + \frac{k}{k+3} (x_{k+1} - x_k).
\end{cases}
</tex>
В данном выражении коэффициент <tex>\frac{k}{k+3}</tex> является частным случаем последовательности <tex>\alpha_k = \frac{2}{k+3}</tex>. Существуют эквивалентные формы записи через трехточечный рекуррентный процесс, однако приведенная форма наиболее наглядно демонстрирует механизм «заглядывания вперед» (look-ahead), когда градиент вычисляется не в текущей аппроксимации <tex>x_k</tex>, а в экстраполированной точке <tex>y_k</tex>.

== Теоретические свойства и скорость сходимости ==

Основной теоретический результат для метода формулируется с помощью техники '''оценивающих последовательностей''' (estimate sequences)<ref name="Nesterov2004">Nesterov Y. Introductory Lectures on Convex Optimization: A Basic Course. — Springer Science & Business Media, 2004. — (См. Главу 2).</ref>.

'''Определение.''' Последовательность функций <tex>\phi_k: \mathbb{R}^n \to \mathbb{R}</tex> называется оценивающей последовательностью для функции <tex>f</tex>, если выполняются два условия:
# <tex>\phi_k(x) \le f(x)</tex> для всех <tex>x \in \mathbb{R}^n</tex> и всех <tex>k \ge 0</tex>.
# Существует такая последовательность <tex>\{y_k\}</tex>, что <tex>f(y_k) \le \phi_k(x^*)</tex> для всех <tex>k \ge 0</tex>.

=== Теорема (О скорости сходимости для гладких выпуклых функций) ===
Пусть функция <tex>f</tex> выпукла и имеет липшицев градиент с константой <tex>L</tex>. Тогда для последовательности <tex>\{y_k\}</tex>, генерируемой ускоренным градиентом Нестерова, выполняется:
<tex>
f(y_k) - f^* \le \frac{2L \|x_0 - x^*\|^2}{(k+1)^2}.
</tex>

'''Доказательство.'''
Рассмотрим оценивающую последовательность вида:
<tex>
\phi_{k+1}(x) = (1 - \alpha_{k+1})\phi_k(x) + \alpha_{k+1} \left[ f(x_{k+1}) + \langle \nabla f(x_{k+1}), x - x_{k+1} \rangle + \frac{L}{2}\|x - x_{k+1}\|^2 \right],
</tex>
где <tex>\alpha_0 = 1</tex> и <tex>\alpha_{k+1} = \frac{2}{k+3}</tex>.
В качестве начальной функции выберем <tex>\phi_0(x) = f(x_0) + \langle \nabla f(x_0), x - x_0 \rangle + \frac{L}{2}\|x - x_0\|^2</tex>.

Утверждение 1: <tex>\phi_k(x) \le f(x)</tex> для всех <tex>x</tex>. Докажем по индукции.
* База: <tex>\phi_0(x)</tex> является глобальной верхней оценкой для <tex>f(x)</tex> в силу условия гладкости.
* Шаг индукции: Пусть <tex>\phi_k(x) \le f(x)</tex>. По условию гладкости, выражение в квадратных скобках также является верхней оценкой <tex>f(x)</tex>. Так как <tex>(1-\alpha_{k+1}) \ge 0</tex> и <tex>\alpha_{k+1} \ge 0</tex>, их выпуклая комбинация <tex>\phi_{k+1}(x)</tex> также не превышает <tex>f(x)</tex>.

Утверждение 2: Выполнение условия <tex>f(y_k) \le \phi_k(x^*)</tex>.
Найдем минимум правой части выражения для <tex>\phi_{k+1}(x)</tex>. Точка минимума квадратичной функции в скобках есть <tex>x_{k+1}</tex>. Значение в этой точке равно <tex>f(x_{k+1})</tex>. Следовательно, минимальное значение <tex>\phi_{k+1}(x)</tex> достигается в точке:
<tex>
y_{k+1} = \arg\min_{x} \phi_{k+1}(x) = (1-\alpha_{k+1})y_k + \alpha_{k+1} x_{k+1}.
</tex>
Подставляя <tex>x_{k+1} = y_k - \frac{1}{L}\nabla f(y_k)</tex> и выражение для <tex>\alpha_{k+1}</tex>, после алгебраических преобразований получаем рекуррентное соотношение <tex>y_{k+1} = x_{k+1} + \frac{k}{k+3}(x_{k+1} - x_k)</tex>, что в точности совпадает с алгоритмом.
Оценим значение:
<tex>
\phi_{k+1}(y_{k+1}) = (1-\alpha_{k+1})\phi_k(y_{k+1}) + \alpha_{k+1} f(x_{k+1}) \le (1-\alpha_{k+1})\phi_k(x^*) + \alpha_{k+1} \left[ f(y_k) - \frac{1}{2L}\|\nabla f(y_k)\|^2 \right].
</tex>
Используя предположение индукции <tex>f(y_k) \le \phi_k(x^*)</tex> и неравенство Коши-Буняковского-Шварца для градиента, можно показать, что <tex>\phi_{k+1}(y_{k+1}) \le \phi_k(x^*) - \frac{\alpha_{k+1}}{2L}\|\nabla f(y_k)\|^2 \le \phi_k(x^*)</tex>. Отсюда <tex>f(y_{k+1}) \le \phi_{k+1}(x^*)</tex>.

Утверждение 3: Оценка скорости.
Введем вспомогательную последовательность <tex>A_k = \alpha_k \prod_{i=1}^{k-1} (1-\alpha_i)</tex>. Можно показать, что <tex>A_k = \frac{2}{(k+1)(k+2)}</tex>.
Из разложения оценивающей последовательности в точке <tex>x^*</tex> следует:
<tex>
A_{k+1} (f(y_{k+1}) - f^*) \le \phi_0(x^*) - f^* \le \frac{L}{2}\|x_0 - x^*\|^2.
</tex>
Подставляя явный вид <tex>A_{k+1}</tex>, получаем искомую оценку <tex>f(y_k) - f^* \le \frac{2L \|x_0 - x^*\|^2}{(k+1)^2}</tex>. <tex>\blacksquare</tex>

=== Теорема (О скорости сходимости для сильно выпуклых функций) ===
Если функция <tex>f</tex> является [[Сильно выпуклая функция|сильно выпуклой]] с параметром <tex>\mu > 0</tex>, то метод модифицируется путем замены коэффициента экстраполяции на константу:
<tex>
\beta = \frac{\sqrt{L} - \sqrt{\mu}}{\sqrt{L} + \sqrt{\mu}}.
</tex>
Тогда скорость сходимости становится линейной:
<tex>
f(y_k) - f^* \le \left( \frac{\sqrt{L} - \sqrt{\mu}}{\sqrt{L} + \sqrt{\mu}} \right)^{2k} (f(y_0) - f^*).
</tex>

=== Свойства метода ===
# '''Оптимальность''': Метод достигает теоретической нижней границы <tex>O(1/k^2)</tex> для класса гладких выпуклых задач. Изменение константы шага или коэффициента экстраполяции не может улучшить асимптотику по порядку.
# '''Немонотонность''': В отличие от классического градиентного спуска, последовательность значений целевой функции <tex>\{f(y_k)\}</tex> не является монотонно убывающей. Допускаются локальные возрастания функции на отдельных итерациях.
# '''Чувствительность к шуму''': Метод критически зависит от точности вычисления градиента. При добавлении стохастического шума (в SGD) ускорение может быть утрачено без применения специальных техник стабилизации (например, variance reduction).
# '''Зависимость от константы Липшица''': Практическое применение метода требует знания или оценки константы <tex>L</tex>. Слишком завышенная оценка приводит к замедлению сходимости, заниженная — к расходимости алгоритма.

== Литература ==
<references />

== См. также ==
* [[Метод инерции Поляка]]
* [[Диагональный метод Левенберга-Марквардта]]
* [[Метод наискорейшего спуска]] -
* [http://www.machinelearning.ru/wiki/images/3/34/Rodomanov-fast-gradient-methods.pdf Быстрый градиентный метод]
* [http://www.machinelearning.ru/wiki/images/0/03/Rodomanov_FGM.pdf Анализ быстрого градиентного метода нестерова для задач машинного обучения с L1-регуляризацией]
* [[Метод сопряжённых градиентов]]

Квантование нейронных сетей

2026-06-25T06:42:18Z

Описание изменений: Новая: {{well|Статья написана с использованием LLM '''DeepSeek-V3''' и проверена участником [[Участник:Mihail Mishin|М. Мишин]] 9:...

{{well|Статья написана с использованием LLM '''DeepSeek-V3''' и проверена участником [[Участник:Mihail Mishin|М. Мишин]] 9:43, 25 июня 2026 (MSD)
Промпт приводится полностью в [[Обсуждение:Квантование нейронных сетей]]
}}
{{TOCright}}

== Определение и основная идея ==
'''Квантование нейронных сетей''' (англ. ''neural network quantization'') — это процесс преобразования весов, активаций и, в некоторых случаях, градиентов нейронной сети из представления с высокой точностью (например, 32-битных чисел с плавающей запятой, [[FP32]]) в представление с более низкой разрядностью (например, 8-битные целые числа, [[INT8]], или даже 1-битные бинарные значения). В более широком смысле квантование является одним из ключевых методов [[Сжатие моделей|сжатия моделей]] глубокого обучения, направленным на сокращение требований к памяти и вычислительным ресурсам путём замены высокоточных вычислений операциями над данными с меньшей разрядностью.

Квантование опирается на фундаментальный компромисс: снижение точности представления данных неизбежно вносит ошибки округления (квантовательный шум), однако при правильном подборе параметров эти потери могут быть сведены к минимуму, обеспечивая значительный выигрыш в эффективности.

== Мотивация: зачем нужно квантование? ==
Современные нейронные сети демонстрируют выдающиеся результаты в компьютерном зрении, обработке естественного языка и других областях. Однако платой за это является экспоненциальный рост числа параметров: модели выросли от сотен миллионов (BERT) до триллионов параметров (GPT-4). Это порождает три взаимосвязанные проблемы:

* '''Огромные требования к памяти.''' Размер state-of-the-art свёрточной сети может достигать сотен мегабайт, что делает её развёртывание на периферийных устройствах и устройствах интернета вещей затруднительным.
* '''Высокая вычислительная сложность.''' Операции с 32-битными числами с плавающей запятой требуют значительных вычислительных ресурсов, что увеличивает задержку (латентность) при инференсе.
* '''Энергопотребление.''' Вычисления с плавающей запятой и передача больших объёмов данных между памятью и процессором потребляют значительную энергию, что критично для батарейных устройств.

Квантование предлагает решение всех трёх проблем одновременно:
* '''Сжатие модели.''' INT8-модель занимает примерно в 4 раза меньше места, чем FP32-аналог.
* '''Ускорение инференса.''' Операции над целыми числами выполняются быстрее на большинстве современных CPU и GPU благодаря специализированным инструкциям (например, [[AVX-512 VNNI]] или [[Tensor Cores]]).
* '''Снижение энергопотребления.''' Меньший объём вычислений и операций с памятью напрямую ведёт к уменьшению энергозатрат.

Основной компромисс при квантовании — это '''точность vs. эффективность''': снижение разрядности неизбежно вносит ошибки округления, и задача состоит в том, чтобы минимизировать потерю точности модели на целевой задаче.

== Математические основы квантования ==
=== Линейное (аффинное) квантование ===
Наиболее распространённым подходом является '''аффинное квантование'''. Оно отображает диапазон значений исходного FP32-тензора <tex>[v_{\min}, v_{\max}]</tex> на дискретный диапазон целочисленных значений <tex>[q_{\min}, q_{\max}]</tex> (например, <tex>[-128, 127]</tex> для INT8).

Ключевыми параметрами квантования являются:

'''Масштаб''' (<tex>S</tex>):
<tex>S = \frac{v_{\max} - v_{\min}}{q_{\max} - q_{\min}}</tex>

'''Смещение нуля''' (<tex>Z</tex>):
<tex>Z = q_{\min} - \text{round}\left(\frac{v_{\min}}{S}\right)</tex>

Процесс квантования (преобразование FP32-значения <tex>v</tex> в целочисленное <tex>q</tex>) и деквантования (восстановление приближённого FP32-значения <tex>\tilde{v}</tex>) описываются формулами:

<tex>q = \text{round}\left(\frac{v}{S} + Z\right)</tex>
<tex>\tilde{v} = S \cdot (q - Z)</tex>

Важно отметить, что нулевое значение FP32 отображается в целочисленный '''zero-point''' <tex>Z</tex>, что позволяет корректно обрабатывать операции с обнулением (например, padding).

=== Симметричное vs. асимметричное квантование ===
Выбор между симметричным и асимметричным квантованием определяет, как именно FP32-диапазон отображается на целочисленный.

'''Симметричное квантование''' предполагает, что исходный FP32-диапазон симметричен относительно нуля: <tex>[-a, a]</tex>. Этот диапазон отображается симметрично на целочисленный диапазон, например <tex>[-127, 127]</tex>. Ключевая особенность: значение <tex>0.0</tex> отображается в целое <tex>0</tex>, поэтому zero-point <tex>Z = 0</tex>. Требуется только один параметр — масштаб <tex>S</tex>. Симметричное квантование упрощает вычисления, но может быть менее точным, если распределение данных не центрировано относительно нуля.

'''Асимметричное (аффинное) квантование''' не предполагает симметрии распределения. Точный диапазон <tex>[v_{\min}, v_{\max}]</tex> отображается на полный INT8-диапазон <tex>[-128, 127]</tex>. Требуются два параметра — масштаб <tex>S</tex> и zero-point <tex>Z</tex>. Асимметричное квантование лучше captures асимметричные распределения весов и, как показывает практика, часто даёт более высокую точность.

На практике '''веса''' обычно квантуют симметрично (их распределения часто центрированы около нуля), а '''активации''' — асимметрично (например, выходы ReLU всегда неотрицательны).

=== Нелинейное квантование ===
Помимо линейного квантования, существуют нелинейные схемы, которые пытаются лучше адаптироваться к распределению данных. Например, '''NF4 (NormalFloat 4-bit)''' оптимизирован для нормально распределённых весов, а '''FP4''' — для равномерно распределённых. Такие форматы особенно популярны в контексте квантования больших языковых моделей (LLM).

== Классификация методов ==
=== По времени применения: PTQ и QAT ===
Это фундаментальное разделение, определяющее, на каком этапе жизненного цикла модели применяется квантование.

==== Пост-тренировочное квантование (Post-Training Quantization, PTQ) ====
PTQ применяется к уже обученной полной точной модели без дообучения. Процесс включает:
# Сбор '''калибровочного датасета''' — небольшого набора репрезентативных входных данных (обычно 300–500 примеров).
# Однопроходный (или многопроходный) инференс для статистического анализа распределений активаций.
# Вычисление параметров квантования (масштабов и zero-point'ов) на основе собранной статистики.
# Непосредственное применение квантования к весам и активациям.

'''Преимущества PTQ:'''
* Не требует доступа к размеченным данным.
* Крайне быстр — калибровка занимает минуты.
* Не требует вычислительных ресурсов для дообучения.

'''Недостатки:'''
* Может приводить к существенному падению точности, особенно при агрессивном квантовании (4 бита и менее).
* Для сложных архитектур (например, Transformer) PTQ может быть нестабильным.

==== Квантование с обучением (Quantization-Aware Training, QAT) ====
QAT интегрирует квантование в процесс обучения сети. В прямом проходе (forward pass) веса и активации квантуются (симуляция квантования), а в обратном проходе (backward pass) градиенты вычисляются с использованием аппроксимаций недифференцируемой операции округления.

Ключевой механизм QAT — '''Straight-Through Estimator (STE)''', который игнорирует операцию округления при вычислении градиента, аппроксимируя её тождественным отображением. Несмотря на грубость аппроксимации, STE хорошо работает на практике.

В процессе QAT могут обучаться не только веса, но и параметры самого квантования — например, clipping ranges активаций (PACT) или масштабирующие факторы (LSQ).

'''Преимущества QAT:'''
* Значительно лучшее восстановление точности по сравнению с PTQ.
* Позволяет достичь высокой точности даже при сверхнизкой разрядности.

'''Недостатки:'''
* Требует доступа к полному размеченному обучающему датасету.
* Вычислительно затратен — требует нескольких эпох дообучения.
* Значительно более длительный цикл разработки.

=== По симметричности: симметричное и асимметричное ===
(Подробно рассмотрено в разделе [[#Симметричное vs. асимметричное квантование|Симметричное vs. асимметричное квантование]].)

=== По линейности: линейное и нелинейное ===
(Подробно рассмотрено в разделе [[#Нелинейное квантование|Нелинейное квантование]].)

=== По гранулярности квантования ===
* '''Per-tensor''' — единый масштаб для всего тензора. Простейший подход.
* '''Per-channel''' — отдельный масштаб для каждого выходного канала (особенно важно для свёрточных слоёв).
* '''Per-group / block-wise''' — масштаб вычисляется для блоков параметров внутри тензора. Используется в методах вроде GPTQ.

== Ключевые форматы представления данных ==
=== INT8 (8-битные целые числа) ===
Наиболее распространённый формат для практического квантования. Потеря точности обычно незначительна, а дообучение часто не требуется. INT8-квантование даёт ускорение в 1.5–3.3 раза по сравнению с FP32.

=== FP16 / BFLOAT16 (16-битные числа с плавающей запятой) ===
Обеспечивают умеренный выигрыш в эффективности при практически полном сохранении точности. FP16 широко поддерживается современными GPU (Tensor Cores в NVIDIA). BFLOAT16 сохраняет динамический диапазон FP32 за счёт уменьшения мантиссы, что делает его особенно удобным для обучения.

=== INT4 / 4-битные форматы ===
Активно используются для квантования больших языковых моделей. Специализированные форматы:
* '''NF4''' — NormalFloat 4-bit, оптимизирован для нормально распределённых весов.
* '''FP4''' — 4-bit FloatPoint, для равномерно распределённых данных.

=== Бинарные и тернарные сети ===
Крайний случай квантования — приведение параметров к разрядности '''1 бит''' (бинаризация) или '''2 бита''' (тернаризация). Веса и активации принимают значения из множества <tex>\{-1, +1\}</tex> (бинарные) или <tex>\{-1, 0, +1\}</tex> (тернарные).

Бинарные сети позволяют заменить сложные операции умножения-накопления (MAC) на битовые операции XNOR и popcount, что радикально снижает требования к памяти и вычислениям. Однако точность таких сетей значительно уступает полноточным аналогам, и активные исследования направлены на преодоление этого разрыва.

=== FP8 ===
Относительно новый формат, набирающий популярность. Поддерживается в TensorRT. FP8-квантование с калибровкой min-max сжимает FP16/BF16-модель до 50% исходного размера.

== Инструменты и библиотеки ==
Основные фреймворки для квантования:

* '''PyTorch''' предоставляет модуль <code>torch.quantization</code> с поддержкой динамического, статического PTQ и QAT, а также экспорт в ONNX.
* '''NVIDIA TensorRT''' — оптимизатор инференса, поддерживающий INT8, FP8, INT4 и FP4 через явное квантование (Q/DQ-узлы) и различные стратегии калибровки.
* '''ONNX Runtime''' — кроссплатформенный движок, выполняющий квантованные модели с Q/DQ-узлами на различных бэкендах (CPU, GPU, TensorRT, OpenVINO).
* '''Intel Neural Compressor''' — библиотека для квантования моделей PyTorch, TensorFlow и ONNX, оптимизированная для Intel-оборудования.
* '''AMD Quark''' — кроссплатформенный инструментарий от AMD.
* '''bitsandbytes''' — реализует NF4 и другие форматы для квантования LLM.
* '''GGUF''' — файловый формат (не метод), широко используемый в экосистеме llama.cpp для запуска квантованных LLM на CPU.

== Современные вызовы ==
=== Падение точности при низкой разрядности ===
Основной вызов квантования — минимизация потери точности. При квантовании ниже 8 бит методы PTQ часто дают неприемлемое падение качества. Это связано с тем, что:
* Квантовательный шум накапливается от слоя к слою.
* Некоторые веса (т.н. "salient weights") критически важны для точности и их грубое квантование непропорционально сильно вредит модели.
* Архитектуры на основе Transformer имеют свои особенности: self-attention и layer normalization создают уникальные вызовы для квантования из-за широкого динамического диапазона и чувствительности к ошибкам.

=== Выбор калибровочного датасета ===
Для PTQ критически важен выбор калибровочного датасета — небольшого набора примеров для оценки распределений активаций.

'''Проблемы:'''
* Если калибровочный датасет не отражает статистические характеристики реальных данных, параметры квантования будут неоптимальны.
* Слишком маленький датасет ведёт к неточным параметрам.
* Случайный выбор данных может приводить к нестабильности и деградации точности из-за несоответствия распределений активаций.

'''Решения:'''
* Разработаны методы интеллектуального выбора калибровочных данных (например, SelectQ, CaPTQ).
* Исследования показывают, что некоторые PTQ-методы могут быть чувствительны к выбору калибровочного датасета даже при квантовании LLM.

=== Гетерогенное оборудование ===
Различные аппаратные платформы (CPU, GPU, NPU, FPGA) имеют разные возможности и ограничения в поддержке квантованных типов данных. Это требует от инженеров глубокого понимания целевой платформы и выбора соответствующих стратегий квантования.

== Актуальные научные подходы ==
=== Методы для больших языковых моделей (LLM) ===
Квантование LLM — активно развивающаяся область. Ключевые методы:

* '''GPTQ''' (Generative Pre-trained Transformer Quantization) — метод пост-тренировочного квантования, основанный на минимизации ошибки квантования с использованием информации из матрицы Гессе (вторых производных). Позволяет эффективно квантовать LLM до 4 бит.
* '''AWQ''' (Activation-aware Weight Quantization) — метод, который защищает "важные" веса (salient weights) от грубого квантования, основываясь на анализе активаций.
* '''SmoothQuant''' — техника, переносящая сложность квантования с активаций на веса путём сглаживания распределений, что облегчает INT8-квантование LLM.
* '''GGUF''' (GPT-Generated Unified Format) — хотя это скорее формат, чем метод, он стал де-факто стандартом для запуска квантованных LLM на CPU через llama.cpp.

=== Продвинутые техники PTQ ===
* '''AdaRound''' — альтернатива стандартному округлению до ближайшего целого, использующая адаптивное округление, которое минимизирует потерю точности.
* '''LSQ''' (Learned Step Size Quantization) — метод, в котором масштабирующие факторы квантования изучаются в процессе QAT с использованием специальной оценки градиента.

=== Смешанная точность ===
Идея заключается в использовании разной разрядности для разных слоёв или даже разных каналов внутри слоя. Критические слои (например, первые и последние слои сети) могут оставаться в более высокой точности, а менее чувствительные — квантоваться агрессивнее. Это позволяет достичь лучшего баланса между сжатием и точностью.

== Заключение ==
Квантование нейронных сетей превратилось из нишевой техники оптимизации в необходимый инструмент для практического развёртывания моделей глубокого обучения. От базового INT8-квантования до специализированных методов для LLM — спектр доступных решений постоянно расширяется. Понимание математических основ квантования и знание доступных инструментов позволяют принимать осознанные решения, балансируя между тремя ключевыми метриками: размером модели, скоростью инференса и точностью.

== См. также ==
* [[Сжатие моделей]]
* [[Pruning]]
* [[FP32]], [[FP16]], [[BFLOAT16]], [[INT8]]
* [[TensorRT]]
* [[PyTorch]]
* [[ONNX]]
* [[GPTQ]]
* [[AWQ]]
* [[SmoothQuant]]
* [[LLM]]
* [[Quantization-Aware Training]]
* [[Post-Training Quantization]]

== Литература ==
* Gholami A., Kim S., Dong Z., Yao Z., Mahoney M.W., Keutzer K. A Survey of Quantization Methods for Efficient Neural Network Inference // [https://arxiv.org/abs/2103.13630 arXiv:2103.13630], 2021. — обширный обзор методов квантования, охватывающий как PTQ, так и QAT, с акцентом на математические основы.
* Nagel M., Fournarakis M., Amjad R.A., Bondarenko Y., van Baalen H., Blankevoort T. A White Paper on Neural Network Quantization // [https://arxiv.org/abs/2106.08295 arXiv:2106.08295], 2021. — систематическое изложение теории и практики квантования, включая продвинутые техники.
* Frantar E., Ashkboos S., Hoefler T., Alistarh D. GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers // [https://arxiv.org/abs/2210.17323 arXiv:2210.17323], 2022. — основополагающая работа по квантованию LLM до 4 бит с использованием информации из матрицы Гессе.
* Lin J., Tang J., Tang H., Yang S., Chen W., Wang W., Xiao G., Dang X., Gan C., Han S. AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration // [https://arxiv.org/abs/2306.00978 arXiv:2306.00978], 2023. — метод защиты критически важных весов при квантовании LLM.
* Xiao G., Lin J., Seznec M., Wu H., Han S. SmoothQuant: Accurate and Efficient Post-Training Quantization for Large Language Models // [https://arxiv.org/abs/2211.10438 arXiv:2211.10438], 2023. — техника сглаживания распределений для облегчения INT8-квантования Transformer-моделей.

== Категории ==
[[Категория:Методы машинного обучения]]
[[Категория:Оптимизация нейронных сетей]]

Генерация признаков

2026-06-25T06:12:55Z

Описание изменений:

{{well|Статья написана с использованием LLM '''GPT-4o''' и проверена участником [[Участник:Arina Pakalova|Arina Pakalova]] 10:25, 25 июня 2026 (MSD)}}

'''Генерация признаков''' (англ. ''feature generation'', ''feature construction'') — это процесс создания новых переменных на основе исходного [[Признаковое описание|признакового описания]] объектов с целью повышения информативности данных для последующего применения алгоритмов [[Машинное обучение|машинного обучения]].

Генерация признаков является ключевым этапом [[Конструирование признаков|конструирования признаков]] (feature engineering) и принципиально отличается от [[Отбор признаков|отбора признаков]] (feature selection). Если отбор подразумевает выбор оптимального подмножества из уже существующих переменных, то генерация заключается в расширении пространства признаков за счет явного или неявного вычисления новых характеристик<ref name="kuhn">Kuhn, M., & Johnson, K. (2019). ''Feature Engineering and Selection: A Practical Approach for Predictive Models''. CRC Press.</ref>.

== Формальное определение ==

Пусть задано исходное признаковое описание объекта <tex>x \in \mathbb{R}^d</tex>. Генерация признаков представляет собой отображение:
<tex>\phi: \mathbb{R}^d \rightarrow \mathbb{R}^D</tex>,
где <tex>D > d</tex>. Новое описание объекта формируется как <tex>\tilde{x} = \phi(x)</tex>. Целью данного преобразования является переход в такое пространство <tex>\mathbb{R}^D</tex>, в котором [[Обучающая выборка|обучающая выборка]] становится линейно разделимой или обладает более выраженной структурой, позволяющей построить модель с меньшей [[Ошибка обобщения|ошибкой обобщения]]<ref name="bishop">Bishop, C. M. (2006). ''Pattern Recognition and Machine Learning''. Springer.</ref>.

== Основные методы генерации признаков ==

Методы генерации классифицируются в зависимости от типа исходных данных и применяемых математических преобразований.

=== Базовые математические преобразования ===
К данной группе относятся арифметические операции над скалярными признаками:
* '''Логарифмирование и степенные преобразования:''' применяются для изменения распределения признака (например, для приближения к нормальному распределению) и снижения влияния выбросов.
* '''Дискретизация (биннинг):''' преобразование непрерывной переменной в категориальную путем разбиения области значений на интервалы.
* '''Нормализация и стандартизация:''' хотя технически это преобразования масштаба, они создают новые представления признаков, необходимые для корректной работы метрических алгоритмов (например, [[Метод k-ближайших соседей|метода k-ближайших соседей]]).

=== Признаки взаимодействия (Interaction features) ===
Создаются путем комбинирования двух или более исходных переменных для фиксации совместного влияния факторов на [[Целевая переменная|целевую переменную]]:
* '''Мультипликативное взаимодействие:''' произведение признаков <tex>x_i \cdot x_j</tex>. Классическим примером являются [[Полиномиальные признаки|полиномиальные признаки]], где формируются все возможные произведения исходных переменных до заданной степени. Это позволяет линейным моделям (таким как [[Линейная регрессия|линейная регрессия]] или [[Логистическая регрессия|логистическая регрессия]]) аппроксимировать нелинейные зависимости<ref name="hastie">Hastie, T., Tibshirani, R., & Friedman, J. (2009). ''The Elements of Statistical Learning'' (2nd ed.). Springer.</ref>.
* '''Аддитивное взаимодействие и отношения:''' суммы или частные от деления признаков (например, отношение площади комнаты к ее объему).

=== Специфические генераторы для структурированных данных ===
* '''Временные ряды:''' генерация лаг-признаков (значений за предыдущие периоды), скользящих статистик (среднее значение, дисперсия, минимум/максимум в окне), признаков сезонности (день недели, месяц) и автокорреляционных функций.
* '''Текстовые данные:''' применение подходов [[Мешок слов|мешка слов]] (Bag-of-Words), вычисление [[TF-IDF|TF-IDF]] характеристик, генерация n-грамм. Данные методы преобразуют неструктурированный текст в числовую матрицу «объект-признак».
* '''Графовые данные:''' вычисление характеристик вершин и рёбер, таких как степень вершины, [[Коэффициент кластеризации|коэффициент кластеризации]], меры центральности (например, PageRank), расстояния в графе.

=== Автоматическая генерация признаков ===
Вместо ручного конструирования применяются алгоритмические подходы:
* '''Глубокое обучение (Deep Learning):''' скрытые слои [[Искусственная нейронная сеть|искусственных нейронных сетей]] (например, [[Сверточная нейронная сеть|сверточных сетей]] для изображений) выполняют иерархическую автоматическую генерацию признаков. Выходы предпоследнего слоя выступают в роли сгенерированных признаков для финального классификатора<ref name="bishop"/>.
* '''Генетическое программирование (Genetic Programming):''' эволюционный поиск оптимальных математических формул для комбинации исходных признаков.
* '''Синтез глубоких признаков (Deep Feature Synthesis):''' алгоритм, реализованный в библиотеке Featuretools, который автоматически применяет наборы примитивных трансформаций (aggregation, transform) к реляционным базам данных для генерации новых признаков.

== Проблемы и ограничения ==

Применение генерации признаков сопряжено с рядом проблем:
* '''[[Проклятие размерности|Проклятие размерности]]:''' избыточная генерация признаков приводит к экспоненциальному росту размерности пространства. Это требует пропорционального роста объема обучающей выборки для сохранения плотности данных, иначе модель подвержена [[Переобучение|переобучению]].
* '''Мультиколлинеарность:''' создание производных признаков (например, суммы двух сильно скоррелированных признаков) часто приводит к высокой корреляции между предикторами. Это может вызвать числовую нестабильность при обучении линейных моделей без регуляризации.
* '''Вычислительная сложность:''' хранение и обработка разреженных матриц огромной размерности (характерных для n-грамм или полиномиальных признаков высокой степени) требует значительных ресурсов оперативной памяти и процессорного времени.

== Литература ==

<references />

ДНК задачи

2026-06-24T17:23:33Z

Описание изменений:

{{well|Статья написана с использованием LLM '''GPT-4o''' и проверена участником [[Участник:Arina Pakalova|Arina Pakalova]] 21:37, 24 июня 2026 (MSD)}}

'''ДНК задачи''' (аббревиатура от '''Д'''ано — '''Н'''айти — '''К'''ритерий) — это мнемоническое правило и базовый математический шаблон, используемый для строгой формализации задач в [[Машинное обучение|машинном обучении]]. Шаблон требует точного описания трех компонент: исходных данных, искомой математической зависимости и функционала, по которому будет оцениваться качество решения.

Использование шаблона ДНК позволяет систематизировать постановку задачи до начала написания кода или выбора конкретных алгоритмов, исключая логические пробелы и некорректные сравнения моделей<ref name="vorontsov">Воронцов К. В. Математические методы обучения по прецедентам (курс лекций) // МЦНМО, 2018.</ref>.

== Структура шаблона ==

=== Дано (Входные данные и ограничения) ===
Секция описывает информационное пространство, в котором существует задача.
* '''Пространство объектов:''' Множество <tex>X</tex>, представляющее все возможные описания объектов. В этой же секции фиксируется [[Признаковое описание объектов|признаковое пространство]]: типы признаков (числовые, категориальные, текстовые, графовые) и их масштабы<ref name="ESL">Hastie T., Tibshirani R., Friedman J. The Elements of Statistical Learning // Springer, 2009.</ref>.
* '''Структура выборки:''' Характер распределения данных. Фиксируется, выполняется ли предположение о независимости и одинаковой распределенности (н.о.р., англ. ''i.i.d.''), или данные имеют сложную структуру (например, [[Временные ряды|временные ряды]] с автокорреляцией, пространственные данные).
* '''Системные ограничения:''' Аппаратные лимиты (объем [[Оперативная память|оперативной памяти]], время инференса), которые задают верхнюю границу сложности допустимых моделей.

=== Найти (Искомая зависимость) ===
Секция определяет цель построения модели.
* '''Пространство ответов:''' Множество <tex>Y</tex>, в котором лежат целевые переменные (для [[Обучение с учителем|обучения с учителем]]) или структура выходных данных (для [[Обучение без учителя|обучения без учителя]]).
* '''Тип задачи:''' На основе <tex>X</tex> и <tex>Y</tex> определяется математическая формулировка: поиск решающего правила для [[Классификация|классификации]] (отображение <tex>X \to \{1, \dots, K\}</tex>), [[Регрессия (машинное обучение)|регрессия]] (<tex>X \to \mathbb{R}</tex>), [[Ранжирование|ранжирование]] или поиск скрытых структур в <tex>X</tex> ([[Кластеризация|кластеризация]]).
* '''Класс моделей:''' Семейство алгоритмов <tex>\mathcal{A}</tex>, в котором ведется поиск (например, класс линейных моделей или класс деревьев решений).

=== Критерий (Функционал качества) ===
Секция задает математический аппарат для выбора наилучшего алгоритма <tex>a \in \mathcal{A}</tex>.
* '''Функция потерь (Loss function):''' Функция <tex>L(a(x), y)</tex>, оценивающая ошибку одного предсказания. Критерий требует указания её свойств (например, дифференцируемость для применения градиентных методов).
* '''Эмпирический риск (Критерий оптимизации):''' Функционал <tex>Q(a, X^l) = \frac{1}{l}\sum_{i=1}^{l} L(a(x_i), y_i)</tex>, который непосредственно минимизируется в процессе обучения на [[Обучающая выборка|обучающей выборке]] <tex>X^l</tex><ref name="vorontsov"/>.
* '''Внешний критерий (Метрика):''' Итоговая метрика оценки (например, ROC-AUC, <tex>F_1</tex>-мера), по которой результаты будут проверяться на тестовой выборке и представляться заказчику. В корректной формулировке ДНК функции потерь и внешняя метрика могут не совпадать, но должны быть коррелированы.

== Математическая формализация ==

В общем виде шаблон ДНК сводит задачу машинного обучения к стандартной задаче оптимизации:
<tex>a^* = \arg\min_{a \in \mathcal{A}} Q(a, X^l) \to \min</tex>
где:
* <tex>X^l = \{(x_1, y_1), \dots, (x_l, y_l)\}</tex> — '''Дано''' (выборка);
* <tex>\mathcal{A}</tex> — '''Найти''' (семейство допустимых решающих правил);
* <tex>Q</tex> — '''Критерий''' (функционал эмпирического риска)<ref name="ESL"/>.

== Влияние шаблона на процесс решения ==

Разделение задачи на компоненты ДНК препятствует типичным ошибкам проектирования. Если специалист не зафиксировал в блоке «Дано» нарушение условия н.о.р. (например, наличие концептуального дрейфа), он может некорректно применить стандартную кросс-валидацию по K блокам (K-fold cross-validation), что приведет к утечке данных (data leakage) и завышенной оценке качества модели<ref name="sholle">Шолле Ф. Глубокое обучение // МЦНМО, 2018.</ref>.

Аналогично, разделение блоков «Найти» и «Критерий» объясняет использование суррогатных функций потерь. В задаче классификации найти точное решение часто вычислительно невозможно (NP-трудная задача), поэтому в блоке «Критерий» вместо пороговой функции потерь используют её гладкую верхнюю оценку (логистическую функцию или hinge loss), что позволяет применить градиентный спуск для поиска приближенного решения в блоке «Найти»<ref name="vorontsov"/>.

== Примеры заполнения шаблона ==

=== Задача выявления мошеннических транзакций ===
* '''Дано:''' <tex>X</tex> — векторы признаков транзакций (сумма, время, IP-адрес). Выборка не н.о.р. во времени, наблюдается сильный дисбаланс классов (менее 1% фрода). Ограничение: модель должна выдавать ответ менее чем за 50 мс.
* '''Найти:''' Бинарный классификатор <tex>a: X \to [0, 1]</tex>, оценивающий вероятность мошенничества (с последующей бинаризацией по порогу).
* '''Критерий:''' В качестве функции потерь используется логистическая функция потерь (logistic loss) с весами для компенсации дисбаланса. Внешний критерий — Recall (полнота) при фиксированном значении Precision не ниже 90% (обусловлено бизнес-требованием минимизации ложноположительных срабатываний).

=== Задача прогнозирования остаточного срока службы оборудования ===
* '''Дано:''' <tex>X</tex> — многомерные временные ряды показателей датчиков (вибрация, температура). Длина последовательностей варьируется. Данные содержат пропуски из-за сбоя датчиков.
* '''Найти:''' Функцию регрессии <tex>a: X \to \mathbb{R}_{+}</tex>, предсказывающую количество часов до поломки.
* '''Критерий:''' Функция потерь — среднеквадратичная ошибка (MSE). Внешний критерий — MAE (средняя абсолютная ошибка), так как она более робастна к выбросам и понятна инженерам.

== См. также ==
* [[Формализация задачи обучения по прецедентам]]
* [[Эмпирический риск]]
* [[Функция потерь]]
* [[Обучающая выборка]]
* [[Переобучение]]

== Литература ==
# Воронцов К. В. Математические методы обучения по прецедентам. — М.: МЦНМО, 2018. <ref name="vorontsov" />
# Hastie, T., Tibshirani, R., & Friedman, J. (2009). The Elements of Statistical Learning: Data Mining, Inference, and Prediction. Springer. <ref name="ESL" />
# Шолле Ф. Глубокое обучение. — М.: МЦНМО, 2018. <ref name="sholle" />

Смесь экспертов

2026-06-23T19:20:14Z

Описание изменений: Исправление примечаний, оформление

{{well|Статья написана с использованием LLM и проверена участником [[Участник:Vsevolod Peretiatko|Vsevolod Peretiatko]] 23:20, 23 июня 2026 (MSD)}}

'''Смесь экспертов''' (англ. ''Mixture of Experts, MoE'') — метод построения архитектуры [[Нейронные сети|нейронных сетей]], основанный на принципе условных вычислений (англ. ''conditional computation''). В отличие от классических подходов в [[Машинное обучение|машинном обучении]] или [[Ансамблирование|ансамблировании]], где каждый входной объект обрабатывается всеми слоями сети или всеми базовыми алгоритмами, в архитектурах MoE для каждого конкретного объекта динамически выбирается и активируется лишь небольшая часть сети — так называемые «эксперты».

Главное преимущество такого подхода — возможность эффективно масштабировать емкость модели (общее количество её параметров). Смесь экспертов позволяет увеличивать число параметров до сотен миллиардов или триллионов, но при этом удерживать количество необходимых вычислительных операций ([[Вычислительная сложность|FLOPs]]) на фиксированном или слабо растущем уровне, поскольку для каждого [[Токенизация|токена]] или объекта работает лишь малая доля от всех весов сети.

Исторически концепция возникла в начале 1990-х годов как вероятностная модель совместного обучения локальных специализированных сетей<ref name="Jacobs1991">{{статья
|автор = Jacobs R. A., Jordan M. I., Nowlan A. S., Hinton G. E.
|заглавие = Adaptive mixtures of local experts
|издание = Neural Computation
|год = 1991
|том = 3
|номер = 1
|страницы = 79–87
}}</ref>. Долгое время метод развивался преимущественно в рамках классического статистического анализа. В современном глубоком обучении смеси экспертов стали ключевым элементом разреженных (англ. ''sparse'') [[Большая языковая модель|больших языковых моделей]], где они успешно заменяют стандартные [[Полносвязные слои|полносвязные слои]] в архитектуре [[Трансформер|Трансформер]], а также применяются в задачах [[Многозадачное обучение|многозадачного обучения]].

== Математическая постановка и базовая архитектура ==

Пусть задано подмножество входных объектов (признаковых описаний) <tex>\mathcal{X} \subseteq \mathbb{R}^d</tex> и пространство ответов <tex>\mathcal{Y} \subseteq \mathbb{R}^c</tex>. Архитектура смеси экспертов задает отображение <tex>f_\Theta: \mathcal{X} \to \mathcal{Y}</tex>, которое конструируется из двух основных компонентов:

# '''Множество экспертов (Expert Networks):''' Набор из <tex>N</tex> независимых базовых подсетей <tex>\mathcal{E} = \{E_i(x \mid \theta_i)\}_{i=1}^N</tex>, где каждая функция <tex>E_i: \mathbb{R}^d \to \mathbb{R}^c</tex> параметризована собственным вектором весов <tex>\theta_i</tex>. Обычно все эксперты имеют одинаковую архитектуру (например, являются одинаковыми [[Многослойный перцептрон|многослойными перцептронами]]), но в процессе обучения они настраиваются на разные подмножества данных.
# '''Маршрутизатор / Шлюзовая сеть (Gating Network):''' Алгоритм <tex>G(x \mid \mathbf{W}_g)</tex>, который принимает входной вектор <tex>x</tex> и возвращает вектор весов <tex>g \in \mathbb{R}^N</tex>, определяющий степень участия каждого эксперта в формировании итогового ответа.

Выходные значения маршрутизатора <tex>G(x)_i</tex> интерпретируются как важность (или вероятность выбора) <tex>i</tex>-го эксперта для объекта <tex>x</tex> и удовлетворяют стандартным вероятностным ограничениям:
<tex>\sum_{i=1}^N G(x)_i = 1, \quad G(x)_i \ge 0 \quad \forall i = 1, \dots, N</tex>

Итоговый отклик базовой непрерывной модели MoE для объекта <tex>x</tex> вычисляется как [[Линейная комбинация|взвешенная линейная комбинация]] выходов всех экспертов:
<tex>y = f_\Theta(x) = \sum_{i=1}^N G(x)_i E_i(x)</tex>

Для того чтобы вся система оставалась [[Дифференцируемая функция|дифференцируемой]] и её можно было обучать методом [[Градиентный спуск|градиентного спуска]], в качестве шлюзовой функции классически выбирается оператор [[Softmax]]:
:<tex>G(x) = \text{Softmax}(\mathbf{W}_g x), \quad G(x)_i = \frac{\exp(w_i^T x)}{\sum_{j=1}^N \exp(w_j^T x)}</tex>
где <tex>\mathbf{W}_g \in \mathbb{R}^{N \times d}</tex> — матрица параметров маршрутизатора, а <tex>w_i</tex> — её <tex>i</tex>-я строка, сопоставленная <tex>i</tex>-му эксперту.

=== Вероятностная интерпретация ===

В терминах математической статистики классическую схему MoE можно строго описать как порождающую модель со [[Скрытые переменные|скрытыми переменными]] (англ. ''latent variables'')<ref name="Jordan1994">{{статья
|автор = Jordan M. I., Jacobs R. A.
|заглавие = Hierarchical mixtures of experts and the EM algorithm
|издание = Neural Computation
|год = 1994
|том = 6
|номер = 2
|страницы = 181–214
}}</ref>. Введем дискретную случайную величину <tex>z \in \{1, \dots, N\}</tex>, которая указывает, какой именно эксперт отвечает за генерацию целевого признака <tex>y</tex> для объекта <tex>x</tex>. Тогда шлюзовая сеть задает [[Априорная вероятность|априорную вероятность]] выбора эксперта при условии предъявления объекта:
<tex>P(z = i \mid x, \mathbf{W}_g) = G(x)_i</tex>

Каждый отдельный эксперт, в свою очередь, определяет [[Условная вероятность|условную плотность распределения]] целевых переменных. Например, в задаче [[Регрессионный анализ|регрессии]] это может быть [[Нормальное распределение|нормальное (гауссовское) распределение]], математическое ожидание которого совпадает с детерминированным выходом экспертной подсети <tex>E_i(x)</tex>, а <tex>\Sigma_i</tex> — матрица ковариации:
<tex>p(y \mid x, z = i, \theta_i) = \mathcal{N}(y \mid E_i(x), \Sigma_i)</tex>

Чтобы получить полное (маргинальное) распределение ответов модели, необходимо просуммировать совместную плотность по всем возможным состояниям скрытой переменной <tex>z</tex>:
<tex>p(y \mid x, \Theta) = \sum_{i=1}^N P(z = i \mid x, \mathbf{W}_g) p(y \mid x, z = i, \theta_i) = \sum_{i=1}^N G(x)_i \cdot \mathcal{N}(y \mid E_i(x), \Sigma_i)</tex>

Такой взгляд позволяет рассматривать MoE как прямое развитие классических [[Модель гауссовой смеси|моделей гауссовских смесей (GMM)]]. Разница лишь в том, что в стандартных GMM априорные вероятности компонентов стационарны, а в MoE как сами вероятности выбора компонента (выходы шлюза), так и параметры распределений (выходы экспертов) являются гибкими функциями, динамически зависящими от вектора признаков <tex>x</tex>. Вне контекста глубоких нейросетей оптимизация такой системы эффективно производилась максимизацией правдоподобия с помощью [[EM-алгоритм|EM-алгоритма]].

=== Геометрический смысл и разбиение пространства признаков ===

С геометрической точки зрения маршрутизатор осуществляет мягкую [[Кластеризация|кластеризацию]] исходного высокоразмерного пространства признаков <tex>\mathbb{R}^d</tex> на <tex>N</tex> пересекающихся областей компетентности. Каждая разделяющая гиперплоскость, проходящая через точки, где векторы весов дают одинаковый отклик (<tex>w_i^T x - w_j^T x = 0</tex>), определяет границу, за которой один эксперт становится приоритетнее другого.

В процессе обучения градиенты целевой функции распределяются шлюзовой сетью: если для некоторого подмножества объектов <tex>\mathcal{X}_i</tex> значение <tex>G(x)_i \to 1</tex>, то веса именно <tex>i</tex>-го эксперта будут обновляться наиболее интенсивно. Остальные эксперты при этом почти не корректируют свои параметры под эти объекты. Это минимизирует нежелательную интерференцию (взаимное искажение) признаков и позволяет аппроксимировать сложные нелинейные зависимости с помощью набора локально простых экспертных функций.

== Классические подходы и историческое развитие ==

Концепция смеси экспертов зародилась в рамках теории [[Искусственные нейронные сети|искусственных нейронных сетей]] и статистического обучения в начале 1990-х годов. В исходной работе Джекобса, Иордана, Ноулана и Хинтона (1991)<ref name="Jacobs1991" /> метод позиционировался как реализация принципа «разделяй и властвуй» (англ. ''divide and conquer''). Авторы стремились преодолеть проблему «катастрофического забывания» и интерференции признаков, когда одна большая нейросеть при последовательном обучении на разнородных задачах разрушала уже настроенные веса. Вместо этого было предложено принудительно разделять входные данные между небольшими локальными подсетями.

=== Иерархическая смесь экспертов (HMoE) ===

Важным шагом в развитии теории стала архитектура '''иерархической смеси экспертов''' (англ. ''Hierarchical Mixture of Experts, HMoE''), предложенная Иорданом и Джекобсом в 1994 году<ref name="Jordan1994" />. Вместо одного плоского слоя шлюзов авторы построили древовидную структуру, аналогичную [[Деревья решений|деревьям решений]], но с «мягким» (вероятностным) ветвлением в каждом узле.

В такой структуре каждый внутренний узел дерева представляет собой маршрутизатор (шлюз), а листья дерева — конечные эксперты. Если рассмотреть простейшее двухранговое дерево, где коренной шлюз <tex>G_i(x)</tex> выбирает ветвь <tex>i</tex>, а нижестоящий шлюз <tex>G_{j \mid i}(x)</tex> выбирает эксперта <tex>E_{ij}(x)</tex>, то итоговое уравнение модели принимает вид:
<tex>y = \sum_{i} G_i(x) \sum_{j} G_{j \mid i}(x) E_{ij}(x)</tex>

Иерархическая структура позволила строить более глубокие и интерпретируемые разбиения признакового пространства, где верхние уровни дерева разделяли глобальные макро-кластеры данных, а нижние — настраивали точную локальную аппроксимацию.

=== Процесс обучения через EM-алгоритм ===

Поскольку в процессе обучения нам заранее не известно, какой именно эксперт должен обрабатывать конкретный объект <tex>x</tex>, выбор эксперта является скрытой переменной. Вне контекста градиентных методов глубокого обучения для оптимизации таких систем применялся статистический [[EM-алгоритм]] (Expectation-Maximization)<ref>{{книга
|автор = Bishop C. M.
|заглавие = Pattern Recognition and Machine Learning
|место = New York
|издательство = Springer
|год = 2006
|isbn = 978-0387310732
}}</ref>. Пусть на шаге <tex>t</tex> заданы текущие параметры маршрутизатора и экспертов <tex>\Theta^{(t)}</tex>. Процесс итеративного пересчета выглядит следующим образом:

'''E-шаг (Ожидание):''' Вычисляются апостериорные вероятности (так называемые скрытые переменные ответственности, англ. ''responsibilities'') <tex>h_i^{(t)}</tex> для каждого эксперта <tex>i</tex> по отношению к каждому обучающему объекту <tex>(x, y)</tex>:
:<tex>h_i^{(t)} = P(z = i \mid x, y, \Theta^{(t)}) = \frac{G(x \mid \mathbf{W}_g^{(t)})_i p(y \mid x, \theta_i^{(t)})}{\sum_{j=1}^N G(x \mid \mathbf{W}_g^{(t)})_j p(y \mid x, \theta_j^{(t)})}</tex>
Эти величины показывают, насколько хорошо каждый конкретный эксперт смог предсказать реальный ответ <tex>y</tex> для объекта <tex>x</tex> по сравнению с остальными.

'''M-шаг (Максимизация):''' Параметры модели обновляются путем максимизации ожидаемого правдоподобия. Для экспертов это сводится к решению независимых задач взвешенного метода наименьших квадратов или максимизации взвешенного правдоподобия, где весами объектов выступают вычисленные значения <tex>h_i^{(t)}</tex>:
:<tex>\theta_i^{(t+1)} = \arg\max_{\theta_i} \sum_{m} h_{i, m}^{(t)} \ln p(y_m \mid x_m, \theta_i)</tex>
Для параметров шлюзовой сети <tex>\mathbf{W}_g</tex> шаг оптимизации эквивалентен обучению [[Логистическая регрессия|мультиномиальной логистической регрессии]], где в качестве целевых меток классов используются те же «мягкие» вероятности <tex>h_i^{(t)}</tex>.

Главным ограничением классических MoE была их «плотность»: даже при вероятностном разделении для вычисления финального ответа требовалось запустить и просчитать ''всех'' <tex>N</tex> экспертов, что делало невозможным масштабирование ансамбля до большого количества компонентов.

== Современные разреженные архитектуры (Sparse MoE) ==

С переходом к [[Глубокое обучение|глубокому обучению]] классическая схема MoE претерпела принципиальное изменение: от «мягкого» взвешенного суммирования всех экспертов исследователи перешли к '''разреженной условной маршрутизации''' (англ. ''sparse conditional computation''). В этой парадигме шлюз выбирает строго ограниченное число экспертов для каждого объекта, а выходы остальных принудительно зануляются, что позволяет физически не выполнять их вычисление.

=== Механизм разреженной маршрутизации Top-k ===

Прорыв в использовании MoE для сверхкрупных моделей произошел в 2017 году в работе Ноама Шазира и соавторов<ref>{{статья
|автор = Shazeer N., Mirhoseini A., Maziarz K., Davis A., Quoc Le, Hinton G., Dean J.
|заглавие = Outrageously large neural networks: The sparsely-gated mixture-of-experts layer
|издание = ICLR
|год = 2017
}}</ref>. Они интегрировали разреженный слой MoE внутрь рекуррентных сетей, а позже этот подход был адаптирован под архитектуру Трансформер, где блоки MoE заменяют стандартные промежуточные [[Полносвязный слой|полносвязные слои (FFN)]].

Чтобы шлюз выбирал только лучших экспертов, стандартную функцию <tex>\text{Softmax}</tex> модифицировали, добавив оператор выбора <tex>k</tex> максимальных элементов. Кроме того, для обеспечения равномерного обучения экспертов в систему ввели случайный шум. Математически зашумленный маршрутизатор <tex>G(x)</tex> устроен следующим образом:

# К линейной проекции входного вектора добавляется случайный [[Белый шум|гауссовский шум]]: <tex>H(x)_i = (\mathbf{W}_g x)_i + \epsilon \cdot \text{Softplus}((\mathbf{W}_{\text{noise}} x)_i)</tex>, где <tex>\epsilon \sim \mathcal{N}(0, 1)</tex>, а матрица весов <tex>\mathbf{W}_{\text{noise}}</tex> обратно распространяет градиенты и обучается параллельно с основными параметрами шлюза. Функция <tex>\text{Softplus}(t) = \ln(1 + \exp(t))</tex> выступает здесь в роли гладкой и дифференцируемой аппроксимации функции [[Функция активации|ReLU]]. Она необходима для того, чтобы масштабирующий коэффициент шума (стандартное отклонение) всегда оставался строго положительным и плавно зависел от входного вектора <tex>x</tex>. Такой зашумленный механизм шлюзования (англ. ''noisy gating'') необходим для исследования признакового пространства (англ. ''exploration''): на этапе обучения шум заставляет шлюз случайно выбирать альтернативных экспертов, предотвращая ситуацию, когда вся нагрузка сразу падает на одну «лучшую» подсеть.
# Оператор <tex>\text{KeepTopK}</tex> находит индексы <tex>k</tex> самых больших координат вектора <tex>H(x)</tex>. Обозначим это множество индексов как <tex>\mathcal{I}_k(H(x))</tex>. Все остальные координаты, не вошедшие в топ, принудительно заполняются минус бесконечностью (<tex>-\infty</tex>): <tex>\text{KeepTopK}(H(x), k)_i = \begin{cases} H(x)_i, & i \in \mathcal{I}_k(H(x)) \\ -\infty, & i \notin \mathcal{I}_k(H(x)) \end{cases}</tex>
# К полученному разреженному вектору применяется экспоненциальная нормализация: <tex>G(x) = \text{Softmax}(\text{KeepTopK}(H(x), k))</tex>

Поскольку <tex>\exp(-\infty) = 0</tex>, веса всех экспертов, не попавших в <tex>\text{Top-}k</tex>, становятся строго равными нулю. На практике в базовых архитектурах чаще всего используют конфигурацию <tex>k = 2</tex> (Top-2 routing), передавая один [[Токенизация|токен]] двум наиболее релевантным экспертам.

=== Архитектура Switch Transformer ===

Долгое время считалось, что значение <tex>k</tex> должно быть строго больше единицы. Исследователи предполагали, что при <tex>k=1</tex> (когда выбирается только один эксперт) шлюзовая сеть не сможет эффективно обучаться градиентными методами, так как у нее не будет информации о «втором по силе» эксперте для сравнения, что приведет к быстрой рассогласованности и коллапсу маршрутизации.

Однако в 2021 году в работе Уильяма Федуса и соавторов была представлена архитектура '''Switch Transformer'''<ref>{{статья
|автор = Fedus W., Zoph B., Shazeer N.
|заглавие = Switch transformers: Scaling to trillion parameter models with simple and efficient sparsity
|издание = Journal of Machine Learning Research
|год = 2022
|том = 23
|номер = 1
|страницы = 5232–5270
}}</ref>, которая показала, что это допущение не всегда является строгим, и довела идею разреженности до крайности, зафиксировав <tex>k = 1</tex>.

Переход от Top-2 к Top-1 маршрутизации дал три фундаментальных преимущества:

* '''Снижение вычислительной сложности (FLOPs):''' Каждый токен теперь физически проходит через вычисления ровно одной FFN-подсети, что экономит ресурсы процессора.
* '''Существенное снижение коммуникационных затрат (Communication Overhead):''' При обучении гигантских моделей эксперты физически распределяются по разным графическим процессорам (GPU) в кластере (технология ''Expert Parallelism''). Когда <tex>k = 2</tex>, системе приходится отправлять скрытые представления одного токена сразу на две разные видеокарты через сетевой интерфейс, а затем собирать их обратно (коллективная операция `All-to-All`). Это создавало критическое «бутылочное горлышко» пропускной способности сети. При <tex>k = 1</tex> топология связи упрощается до схемы «один токен — один вычислительный узел», что существенно снижает межчиповый сетевой трафик (в пределе — до двух раз по сравнению с конфигурацией <tex>k = 2</tex>).
* '''Стабилизация шлюза без аддитивного шума:''' Авторы Switch Transformer показали, что при жестком выборе одного эксперта от сложной зашумленной функции Шазира с матрицей <tex>\mathbf{W}_{\text{noise}}</tex> и оператором <tex>\text{Softplus}</tex> можно отказаться без существенной потери качества маршрутизации. Вместо этого используется детерминированный <tex>\arg\max</tex> от стандартного шлюза:
:<tex>i = \arg\max_{j} (\text{Softmax}(\mathbf{W}_g x))_j</tex>
А стабильность распределения нагрузки и дифференцируемость при этом успешно обеспечиваются введением специальной вспомогательной функции потерь (англ. ''auxiliary loss''), которая штрафует модель за дисбаланс еще на этапе вычисления лосса.

Благодаря этой математической и инженерной оптимизации Switch Transformer позволил масштабировать нейросети до уровня в <tex>1.6</tex> триллиона параметров, продемонстрировав четырехкратное ускорение времени обучения по сравнению с аналогичными по вычислительному бюджету плотными моделями.

== Балансировка нагрузки и вычислительные аспекты ==

Перевод классических алгоритмов смеси экспертов на рельсы высокопараллельных вычислений на [[Графический процессор|графических процессорах (GPU)]] выявил ряд специфических проблем, связанных с нелинейной динамикой обучения и жесткими требованиями к структурам данных в видеопамяти.

=== Проблема коллапса маршрутизации ===

В процессе градиентного обучения базовой модели без дополнительных ограничений неизбежно возникает эффект '''коллапса маршрутизации''' (англ. ''routing collapse''). Это ситуация, когда шлюзовая сеть на ранних итерациях начинает отдавать небольшое предпочтение одному или нескольким конкретным экспертам. Поскольку эти эксперты получают больше данных, они быстрее оптимизируются, начинают возвращать более точные предсказания, что заставляет маршрутизатор еще сильнее увеличивать их веса.

Возникает положительная обратная связь по принципу «богатый становится богаче» (англ. ''winner-takes-all''). В результате 1–2 эксперта обрабатывают <tex>100\%</tex> всех данных, а остальные <tex>N-2</tex> экспертов перестают получать градиентный импульс и не обучаются. С вычислительной точки зрения это приводит к катастрофическому дисбалансу: один процессор, на котором запущен «популярный» эксперт, перегружен, а остальные вычислительные узлы простаивают, что нивелирует все преимущества разреженной архитектуры.

=== Вспомогательная функция потерь (Auxiliary Load Balancing Loss) ===

Для принудительного распределения объектов по всему пулу экспертов в общую функцию потерь модели добавляется регуляризационное слагаемое — '''вспомогательная функция потерь балансировки''' (англ. ''auxiliary load balancing loss'')<ref>{{статья
|автор = Shazeer N., Mirhoseini A., Maziarz K., Davis A., Quoc Le, Hinton G., Dean J.
|заглавие = Outrageously large neural networks: The sparsely-gated mixture-of-experts layer
|издание = ICLR
|год = 2017
}}</ref>. Пусть за один шаг оптимизации обрабатывается пакет (батч), содержащий <tex>T</tex> [[Токенизация|токенов]] (или объектов) <tex>X = \{x_1, x_2, \dots, x_T\}</tex>. Для фиксированного слоя MoE с <tex>N</tex> экспертами определяются два вектора размерности <tex>N</tex>:

# Вектор распределения реального потока токенов <tex>f</tex>, где <tex>i</tex>-я координата указывает долю токенов, направленных к <tex>i</tex>-му эксперту: <tex>f_i = \frac{1}{T} \sum_{t=1}^T h_{i,t}</tex>, где <tex>h_{i,t} = 1</tex>, если эксперт <tex>i</tex> был выбран маршрутизатором в качестве целевого для токена <tex>x_t</tex>, и <tex>h_{i,t} = 0</tex> в противном случае.
# Вектор усредненных вероятностей маршрутизации <tex>P</tex>, определяющий суммарный предсказанный шлюзом потенциал распределения: <tex>P_i = \frac{1}{T} \sum_{t=1}^T G(x_t)_i</tex>

Вспомогательный лосс балансировки <tex>L_{aux}</tex> вычисляется как [[Скалярное произведение|скалярное произведение]] этих векторов, масштабированное на количество экспертов:
<tex>L_{aux} = \alpha \cdot N \sum_{i=1}^N f_i \cdot P_i</tex>
где <tex>\alpha</tex> — гиперпараметр, задающий силу регуляризации. Если распределение идеально равномерно, то для любого эксперта выполняются равенства <tex>f_i = 1/N</tex> и <tex>P_i = 1/N</tex>, что сводит сумму к минимуму. Поскольку компонента <tex>P_i</tex> является непрерывной и дифференцируемой функцией по отношению к весам шлюза, градиенты функции потерь <tex>L_{aux}</tex> эффективно штрафуют маршрутизатор за любые проявления дисбаланса.

=== Ограничение вместимости эксперта (Capacity Factor) ===

Для эффективного параллельного выполнения матричных операций на GPU размеры тензоров на входе в каждый эксперт должны быть статическими и известными до начала вычислений. Однако даже при использовании <tex>L_{aux}</tex> на коротких интервалах времени распределение токенов в батче может колебаться.

Чтобы зафиксировать размер выделяемой памяти, вводится понятие '''вместимости эксперта''' (англ. ''expert capacity''). Она определяет максимальное число токенов <tex>C</tex>, которое один эксперт физически может принять на обработку из текущего батча:
<tex>C = c \cdot \frac{T}{N}</tex>
где <tex>c</tex> — константа, называемая '''коэффициентом вместимости''' (англ. ''capacity factor''). Если <tex>c = 1</tex>, а распределение идеально, каждый эксперт получит ровно свою долю токенов. На практике устанавливают <tex>c > 1</tex> (например, <tex>c = 1.25</tex> или <tex>c = 1.5</tex>), создавая некоторый запас прочности на случай локальных дисбалансов.

Если количество токенов, направленных маршрутизатором к конкретному эксперту, превышает предел <tex>C</tex>, все избыточные токены признаются '''отброшенными''' (англ. ''dropped tokens''). Они пропускают вычисления в слое экспертов и передаются на следующий слой без изменений через механизм сквозных связей (англ. ''residual connections''). Высокий процент отброшенных токенов заметно снижает качество работы нейросети, что заставляет исследователей искать альтернативные способы управления потоками данных.

== Актуальные стратегии роутинга (Routing Strategies) ==

В контексте архитектур смеси экспертов '''роутинг''' (от англ. ''routing'' — маршрутизация) представляет собой алгоритмический процесс сопоставления между множеством входных информационных единиц (токенов, векторов признаков) и множеством вычислительных модулей (экспертов). Стратегия роутинга определяет математические правила, по которым принимается дискретное решение о направлении пакета данных на конкретный физический адрес исполнителя.

=== Маршрутизация по выбору токенов (Token Choice Routing) ===

Описанная выше классическая схема Шазира и Switch Transformer относится к классу стратегий '''выбора токенов''' (англ. ''Token Choice Routing''). В ней инициатором выбора выступает сам входной объект (токен). Каждый токен независимо от остальных оценивает свои предпочтения с помощью шлюзовой функции и отправляется к <tex>k</tex> лучшим экспертам.

* '''Преимущество:''' Простота локальных вычислений на уровне одного токена.
* '''Недостатки:''' Прямое следствие асинхронности. Токены не координируют свои действия между собой, что неизбежно приводит к описанным выше проблемам: переполнению буферов экспертов, потере информации из-за отбрасывания токенов (dropped tokens) и необходимости искусственного усложнения функции потерь через <tex>L_{aux}</tex>.

=== Маршрутизация по выбору экспертов (Expert Choice Routing) ===

Чтобы кардинально решить проблему фиксированного размера тензоров и минимизировать потерю токенов, в 2022 году была предложена инвертированная стратегия — '''маршрутизация по выбору экспертов''' (англ. ''Expert Choice Routing'')<ref>{{статья
|автор = Zhou Y., Lei Y., Liu H., Du N., Huang Q., Zhao V., Chen Y., Dai Z., Le Q. V., Lauderdale J.
|заглавие = Mixture-of-experts with expert choice routing
|издание = Advances in Neural Information Processing Systems (NeurIPS)
|год = 2022
|том = 35
|страницы = 7103–7114
}}</ref>. В этой схеме инициатива переходит к экспертным подсетям.

Вместо того, чтобы токен выбирал эксперта, каждый эксперт индивидуально просматривает весь батч целиком и выбирает из него строго фиксированное число <tex>C</tex> наиболее релевантных для себя токенов. Для этого матрица шлюзовых весов транспонируется, и операция <tex>\text{Top-}k</tex> применяется не по измерению экспертов, а по измерению токенов.

Математически, если задана матрица оценок маршрутизатора <tex>\mathbf{S} \in \mathbb{R}^{N \times T}</tex>, где компонент <tex>S_{i,t}</tex> определяет близость эксперта <tex>i</tex> и токена <tex>x_t</tex>, то <tex>i</tex>-й эксперт выбирает подмножество токенов <tex>\mathcal{T}_i</tex> размера <tex>C</tex>, максимизирующих его личные оценки:
<tex>\mathcal{T}_i = \text{Top-C}(\mathbf{S}_{i, \cdot})</tex>

* '''Вычислительные свойства:''' Данная стратегия по определению гарантирует стопроцентную сбалансированность нагрузки. Каждый эксперт получает ровно <tex>C</tex> токенов, конфигурация тензоров в памяти становится стабильной, что позволяет алгоритмически исключить феномен отброшенных токенов.
* '''Особенности:''' при такой схеме некоторые токены могут быть выбраны сразу несколькими экспертами (что увеличивает глубину их проработки), в то время как другие, наименее информативные токены, могут быть не выбраны ни одним экспертом и пройдут слой только через [[Сквозные связи (нейронные сети)|сквозную residual-связь]]. Эксперименты показывают, что это не ухудшает, а в некоторых задачах повышает эффективность обобщения модели.

=== Мягкая смесь экспертов (Soft MoE) ===

В 2024 году исследователи из Google DeepMind предложили радикальный отказ от концепции дискретной маршрутизации, представив метод '''мягкой смеси экспертов''' (англ. ''Soft MoE'')<ref>{{статья
|автор = Puigcerver J., Riquelme C., Ruyssen B., Pinto C., Houlsby N.
|заглавие = From Sparse to Soft Mixtures of Experts
|издание = ICLR
|год = 2024
}}</ref>. Авторы указали, что любые операции жесткого выбора (будь то <tex>\text{Token Choice}</tex> или <tex>\text{Expert Choice}</tex>) содержат в себе шаг вычисления дискретных индексов (<tex>\arg\max</tex> или <tex>\text{Top-}k</tex>), который не является дифференцируемым в строгом математическом смысле, что усложняет оптимизацию и приводит к нестабильности шлюзов на сверхглубоких горизонтах.

В архитектуре Soft MoE каждый эксперт <tex>i</tex> оперирует не исходными токенами, а фиксированным набором из <tex>d_e</tex> виртуальных слотов. Вместо физической пересылки токенов алгоритм вычисляет полностью дифференцируемую [[Матрица|матрицу]] «мягкого» назначения <tex>\mathbf{D} \in \mathbb{R}^{T \times (N \cdot d_e)}</tex>, элементы которой нормализуются с помощью функции <tex>\text{Softmax}</tex> по двум осям одновременно. Входной сигнал <tex>\tilde{x}_{i,j}</tex> для <tex>j</tex>-го слота <tex>i</tex>-го эксперта формируется как взвешенная линейная комбинация ''всех'' токенов текущего батча:
<tex>\tilde{x}_{i,j} = \sum_{t=1}^T D_{t, i, j} x_t</tex>

После того как эксперты обрабатывают эти агрегированные скрытые представления, обратная сборка итоговых векторов токенов происходит по симметричной схеме мягкого смешивания выходов всех слотов.

* '''Результат:''' Soft MoE естественным образом обходит проблемы дискретной балансировки, строгой вместимости и потери токенов, сохраняя сквозную дифференцируемость системы на всем пути распространения сигнала. Метод демонстрирует превосходную математическую стабильность при обучении, однако требует тщательной настройки гиперпараметров размерности слотов для сохранения вычислительной разреженности на этапе [[Инференс|инференса]].

== Ограничения, критика и системные вызовы ==

Несмотря на выдающиеся успехи в масштабировании языковых моделей, архитектура смеси экспертов сталкивается с ряд фундаментальных ограничений — как теоретического, так и сугубо инженерного характера.

=== Проблема избыточности оперативной памяти (VRAM Footprint) ===

Главный системный вызов при эксплуатации современных MoE — это колоссальные требования к объему видеопамяти. В отличие от классических плотных моделей, где объем требуемой памяти строго пропорционален вычислительной сложности (FLOPs), разреженные MoE-модели разделяют эти сущности.

Модель может требовать вычислительного бюджета уровня обычной сети на 15 миллиардов параметров, но при этом её физический вес (суммарное число параметров всех экспертов) составляет 100 миллиардов. Поскольку для инференса или обучения все параметры сети должны одновременно находиться в оперативной памяти кластера, развертывание MoE требует огромного количества графических ускорителей (GPU). Это делает архитектуру крайне дорогой и неэффективной для локального применения на единичных серверах, превращая её в сугубо облачную технологию крупных дата-центров.

=== Уязвимость к сдвигу распределения (Domain Shift) ===

В процессе претрейна шлюзовая сеть обучается оптимальному распределению токенов на основе гигантского, но фиксированного распределения данных. Если на этапе эксплуатации (инференса) модель сталкивается со значительным '''сдвигом распределения''' (англ. ''domain shift'') — например, при вводе узкоспециализированного текста, кода или специфического сленга — алгоритм роутинга может дать сбой.

В этом случае маршрутизатор начинает неоптимально распределять токены, направляя их к экспертам, которые не специализировались на данной теме. В результате общая точность модели падает сильнее, чем у аналогичной по числу параметров плотной сети, которая за счет жесткой сквозной структуры более устойчива к изменению контекста.

=== Дискретность шлюзования и нестабильность градиентов ===

Математическая природа операций выбора максимума (<tex>\arg\max</tex> или <tex>\text{Top-}k</tex>) дискретна. Хотя на этапе обучения этот шаг сглаживается добавлением шума, аппроксимацией <tex>\text{Softplus}</tex> или вспомогательными лоссами, целевая поверхность функции потерь MoE остается гораздо более изрезанной, овражной и изобилующей локальными минимумами, чем у стандартных многослойных перцептронов.

Это приводит к высокой нестабильности процесса обучения. На длинных горизонтах оптимизации (при обучении на триллионах токенов) модели MoE склонны к внезапным «взрывам градиентов» (англ. ''gradient explosions'') и резким скачкам лосса (англ. ''loss spikes''), что требует от инженеров тщательного подбора гиперпараметров регуляризации и постоянного мониторинга динамики весов.

== См. также ==

* [[Ансамблирование]] — метод объединения нескольких базовых алгоритмов для получения единого более точного предсказания (в отличие от MoE, в ансамблях каждый объект обычно обрабатывается всеми моделями одновременно).
* [[Модель гауссовой смеси|Модели гауссовских смесей (GMM)]] — классический вероятностный метод кластеризации и моделирования распределений, послуживший математическим фундаментом для создания первых слоев MoE.
* [[EM-алгоритм]] — итеративный статистический алгоритм, традиционно применявшийся для поиска оценок максимального правдоподобия в смесях экспертов до эры глубокого градиентного обучения.
* [[Трансформер]] — доминирующая архитектура нейросетей в обработке естественного языка, в которой блоки MoE успешно заменяют стандартные полносвязные слои для масштабирования параметров.
* [[Условные вычисления]] — общая концепция проектирования алгоритмов искусственного интеллекта, при которой динамически активируются только те части вычислительного графа, которые необходимы для обработки конкретного входного объекта.

== Примечания ==

{{примечания}}

== Литература ==

* {{книга
|автор = Гудфеллоу Я., Бенджио И., Курвилль А.
|заглавие = Глубокое обучение
|место = М.
|издательство = ДМК Пресс
|год = 2018
|страницы = 326–328
|isbn = 978-5-97060-618-6
}}
* {{статья
|автор = Yuksel S. E., Wilson J. N., Gader P. D.
|заглавие = Twenty Years of Mixture of Experts. A Literature Survey
|издание = IEEE Transactions on Neural Networks and Learning Systems
|год = 2012
|том = 23
|номер = 8
|страницы = 1177–1193
}}
* {{статья
|автор = Masoudnia S., Ebrahimpour R.
|заглавие = Mixture of experts: a literature survey
|издание = The Artificial Intelligence Review
|год = 2014
|том = 42
|номер = 2
|страницы = 275–293
}}
* {{статья
|автор = Eigen D., Ranzato M., Sutskever I.
|заглавие = Learning Factored Representations in a Deep Mixture of Experts
|издание = arXiv preprint arXiv:1312.4314
|год = 2013
}}
* {{статья
|автор = Lepikhin D., Lee H., Xu Y., Chen D., Firat O., Huang Y., Krikun K., Shazeer N., Chen Z.
|заглавие = GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding
|издание = arXiv preprint arXiv:2006.16668
|год = 2020
}}
* {{статья
|автор = Riquelme C., Puigcerver J., Scialom B., Rochette E., Pedregosa F., Houlsby N.
|заглавие = Scaling Vision with Sparse Mixture-of-Experts
|издание = Advances in Neural Information Processing Systems (NeurIPS)
|год = 2021
|том = 34
|страницы = 8583–8596
}}
* {{статья
|автор = Zoph B., Fedus W., Du N., Agarwal S., Shazeer N., Lepikhin D., Chen Z., Dean J.
|заглавие = Designing Effective Sparse Expert Models
|издание = arXiv preprint arXiv:2202.08906
|год = 2022
}}
* {{статья
|автор = Sun D., Zheng S., Chen C., Wang Z., Zhang Y., Ge N.
|заглавие = Mixture-of-Experts Meets Large Language Models: A Survey
|издание = arXiv preprint arXiv:2404.15045
|год = 2024
}}

[[Категория:Машинное обучение]]
[[Категория:Нейронные сети]]

Метаобучение

2026-06-23T15:05:10Z

Описание изменений: Написание статьи с использованием LLM

{{well|Статья написана с использованием LLM и проверена участником [[Участник:Vsevolod Peretiatko|Vsevolod Peretiatko]] 19:05, 23 июня 2026 (MSD)}}

'''Метаобучение''' (англ. ''Meta-learning'', или ''learning to learn'') — фундаментальная парадигма в [[Машинное обучение|машинном обучении]], в которой алгоритм оптимизации или [[Извлечение признаков|извлечения признаков]] обучается на основе опыта выполнения множества различных задач. Главная цель метаобучения — минимизировать количество прецедентов и вычислительных ресурсов, необходимых для эффективного усвоения новой, ранее не встречавшейся задачи<ref name="Thrun1998">{{книга
|автор = Thrun S., Pratt L.
|заглавие = Learning to Learn
|место = Boston
|издательство = Springer US
|год = 1998
|isbn = 978-1-4615-5529-2
}}</ref>.

В отличие от классического машинного обучения, где модель ищет оптимальную [[Пространство гипотез|гипотезу]] <tex>f</tex>, минимизирующую [[Эмпирический риск|эмпирический риск]] на фиксированном распределении объектов строго одной задачи, метаобучение оперирует распределением ''самих задач''. В рамках этой парадигмы базовый алгоритм (англ. ''base-learner'') обучается решать конкретную задачу, в то время как мета-алгоритм (англ. ''meta-learner'') оптимизирует общие гиперпараметры базового алгоритма, настраивая его внутреннюю способность к быстрой адаптации.

Развитие методов метаобучения мотивировано необходимостью преодоления фундаментальных ограничений [[Глубокое обучение|глубокого обучения]]: потребности в огромных аннотированных выборках, высокой вычислительной стоимости обучения «с нуля» и уязвимости моделей к [[Сдвиг распределения|сдвигу распределения данных]]<ref name="Hospedales2021">{{статья
|автор = Hospedales T., Antoniou A., Micaelli P., Storkey A.
|заглавие = Meta-Learning in Neural Networks: A Survey
|издание = IEEE Transactions on Pattern Analysis and Machine Intelligence
|год = 2021
|том = 44
|номер = 9
|страницы = 5149–5169
}}</ref>. Концептуально метаобучение неразрывно связано с задачами [[Few-shot learning|обучения по нескольким примерам]] (англ. ''Few-shot learning''), предоставляя для них строгий математический аппарат.

== Математическая постановка задачи ==

В классическом машинном обучении предполагается наличие единственной [[Обучающая выборка|обучающей выборки]], сэмплированной из распределения данных. В метаобучении вводится более абстрактное понятие — распределение на пространстве задач <tex>p(\mathcal{T})</tex>. Каждая конкретная задача <tex>\mathcal{T}_i \sim p(\mathcal{T})</tex> характеризуется собственным распределением данных <tex>P_i(X, Y)</tex>, пространством ответов и [[Функция потерь|функцией потерь]] <tex>\mathcal{L}_{\mathcal{T}_i}</tex>.

Для обучения и оценки [[Обобщающая способность|обобщающей способности]] мета-модели генерируемый набор задач разделяется на непересекающиеся множества: выборку для мета-обучения <tex>\mathcal{D}_{\text{meta-train}}</tex> и выборку для мета-тестирования <tex>\mathcal{D}_{\text{meta-test}}</tex>.

=== Эпизодическое обучение ===

Обучение мета-моделей традиционно строится на основе концепции эпизодического обучения (англ. ''episodic training''), которая симулирует условия дефицита данных на этапе тестирования. Каждая задача <tex>\mathcal{T}_i</tex> (эпизод) структурно разделяется на два подмножества:

# '''Обучающая выборка задачи''' (англ. ''Support set''): используется базовым алгоритмом для локальной адаптации. Для классической задачи [[Классификация|классификации]] на <tex>N</tex> классов по <tex>K</tex> примерам (англ. ''<tex>N</tex>-way <tex>K</tex>-shot classification'') она формализуется как: <tex>\mathcal{D}_i^{\text{supp}} = \{(x_j, y_j)\}_{j=1}^{N \times K}</tex>
# '''Тестовая выборка задачи''' (англ. ''Query set''): используется мета-алгоритмом для оценки качества адаптации и вычисления мета-градиента. Содержит <tex>Q</tex> новых примеров для каждого из <tex>N</tex> классов: <tex>\mathcal{D}_i^{\text{query}} = \{(x_j', y_j')\}_{j=1}^{N \times Q}</tex>

=== Двухуровневая оптимизация ===

В основе метаобучения лежит задача двухуровневой оптимизации (англ. ''bilevel optimization''). Процесс требует найти такие универсальные мета-параметры <tex>\theta</tex> (например, вектор начальных весов [[Нейронная сеть|нейронной сети]], параметры алгоритма оптимизации или базис метрического пространства), которые обеспечат эффективное вычисление специфичных для задачи параметров <tex>\phi_i</tex>.

Внутренний цикл (адаптация базового алгоритма) описывается функцией <tex>f_{\theta}</tex>, которая отображает обучающую выборку задачи в параметры <tex>\phi_i</tex>:
<tex>\phi_i = f_{\theta}(\mathcal{D}_i^{\text{supp}})</tex>

Внешний цикл (мета-оптимизация) направлен на минимизацию математического ожидания функции потерь на тестовых выборках задач при условии использования параметров <tex>\phi_i</tex>, найденных на внутреннем цикле. Строгий функционал оптимизации имеет вид:
<tex>\min_{\theta} \mathbb{E}_{\mathcal{T}_i \sim p(\mathcal{T})} \left[ \mathcal{L}_{\mathcal{T}_i} \left( f_{\theta}(\mathcal{D}_i^{\text{supp}}), \mathcal{D}_i^{\text{query}} \right) \right]</tex>

На практике [[Математическое ожидание|математическое ожидание]] аппроксимируется усреднением по конечному батчу задач (эпизодов), независимо сэмплированных из <tex>\mathcal{D}_{\text{meta-train}}</tex>:
<tex>\min_{\theta} \sum_{\mathcal{T}_i \in \text{batch}} \mathcal{L}_{\mathcal{T}_i} \left( \phi_i, \mathcal{D}_i^{\text{query}} \right)</tex>

Интуитивно это означает следующее: базовая модель обучается решать задачу, опираясь исключительно на <tex>\mathcal{D}_i^{\text{supp}}</tex>, в то время как мета-модель получает градиентный штраф за ошибки адаптированной базовой модели на независимом множестве <tex>\mathcal{D}_i^{\text{query}}</tex>. Такая архитектура оптимизации заставляет пространство мета-параметров <tex>\theta</tex> эволюционировать в сторону высокой способности к генерализации на новых задачах.

== Таксономия методов метаобучения ==

В зависимости от способа кодирования мета-знаний и механизма адаптации базового алгоритма к новым выборкам, современные подходы к метаобучению разделяют на три доминирующих класса<ref name="Hospedales2021" />:
* '''Метрические методы''' (англ. ''Metric-based meta-learning''): оптимизируют общее [[Векторное пространство|признаковое пространство]], в котором адаптация к новой задаче сводится к непараметрическому сравнению объектов с помощью [[Метрика|функций расстояния]].
* '''Оптимизационные методы''' (англ. ''Optimization-based meta-learning''): настраивают параметры [[Алгоритм|алгоритма]] оптимизации или ищут универсальную инициализацию весов, обеспечивающую сходимость за минимальное число шагов [[Градиентный спуск|градиентного спуска]].
* '''Модельные методы''' (англ. ''Model-based / Memory-based meta-learning''): используют специализированные архитектуры со встроенной динамической [[Память ЭВМ|памятью]], способные мгновенно обновлять свои внутренние состояния при последовательном считывании данных новой задачи.

Данная триада классификации систематизирует подходы с точки зрения того, какая именно компонента классического процесса обучения моделей подвергается мета-параметризации: пространство геометрических представлений, закон обновления весов или внутренняя системная динамика архитектуры.

== Метрические методы (Metric-based) ==

В основе метрических подходов лежит фундаментальное предположение: эффективное обучение по нескольким примерам возможно, если отобразить объекты в такое низкоразмерное латентное пространство, где метрическая близость эквивалентна семантическому сходству. Задача мета-алгоритма заключается в подборе параметров <tex>\theta</tex> нейронной сети-экстрактора признаков <tex>f_{\theta}</tex>, которая инвариантна к конкретному набору классов и извлекает робастные, обобщающие паттерны.

Локальная адаптация к новой задаче <tex>\mathcal{T}_i</tex> на уровне базового алгоритма происходит без изменения весов матрицы <tex>\theta</tex> — исключительно за счет непараметрического сопоставления элементов тестовой выборки задачи (query set) с элементами обучающей выборки задачи (support set). Это минимизирует риск [[Переобучение|переобучения]] при экстремально малых объемах данных.

=== Сиамские нейронные сети ===

'''Сиамские нейронные сети''' (англ. ''Siamese Neural Networks'') исторически стали одним из первых успешных решений для задач верификации и few-shot классификации<ref name="Koch2015">{{статья
|автор = Koch G., Zemel R., Salakhutdinov R.
|заглавие = Siamese Neural Networks for One-shot Image Recognition
|издание = ICML Deep Learning Workshop
|год = 2015
|том = 2
}}</ref>. Архитектура состоит из двух идентичных [[Глубокое обучение|глубоких нейронных сетей]] с общим (разделяемым) вектором весов <tex>\theta</tex>.

При подаче на вход пары объектов <tex>x_i</tex> и <tex>x_j</tex>, сеть вычисляет их признаки <tex>f_{\theta}(x_i)</tex> и <tex>f_{\theta}(x_j)</tex>. Степень сходства определяется через функцию расстояния в латентном пространстве (например, модифицированное расстояние Минковского):
<tex>\mathbf{d}(x_i, x_j) = \sum_{l} w_l |f_{\theta}^{(l)}(x_i) - f_{\theta}^{(l)}(x_j)|</tex>
где <tex>w_l</tex> — обучаемый вес <tex>l</tex>-й компоненты признака.

Обучение мета-параметров <tex>\theta</tex> производится с помощью контрастивной функции потерь (англ. ''contrastive loss'') или ''triplet loss'', которые штрафуют модель за высокое расстояние между объектами одного класса и заставляют раздвигать эмбеддинги объектов разных классов. На этапе тестирования классификация нового объекта выполняется по принципу [[Метод k-ближайших соседей|ближайшего соседа]] из <tex>\mathcal{D}_i^{\text{supp}}</tex>.

=== Сетчатые сети (Matching Networks) ===

Подход '''сетчатых сетей''' (англ. ''Matching Networks'') интегрирует идеи непараметрического оценивания и дифференцируемых [[Механизм внимания|механизмов внимания]] (англ. ''attention'')<ref name="Vinyals2016">{{статья
|автор = Vinyals O., Blundell C., Lillicrap T., Kavukcuoglu K., Wierstra D.
|заглавие = Matching Networks for One Shot Learning
|издание = Advances in Neural Information Processing Systems
|год = 2016
|том = 29
|страницы = 3630–3638
}}</ref>.

Предсказание метки <tex>\hat{y}</tex> для тестового объекта <tex>\hat{x} \in \mathcal{D}_i^{\text{query}}</tex> формируется как взвешенная сумма истинных меток <tex>y_j</tex> из обучающего подмножества задачи <tex>\mathcal{D}_i^{\text{supp}} = \{(x_j, y_j)\}_{j=1}^{k}</tex>:
<tex>\hat{y} = \sum_{j=1}^{k} a(\hat{x}, x_j) y_j</tex>

Ядро внимания <tex>a(\hat{x}, x_j)</tex> задает распределение вероятностей по объектам <tex>\mathcal{D}_i^{\text{supp}}</tex> и рассчитывается через [[Softmax|Softmax]] от косинусного сходства <tex>c</tex> их представлений:
<tex>a(\hat{x}, x_j) = \frac{\exp\left(c\left(g_{\theta}(\hat{x}), f_{\theta}(x_j)\right)\right)}{\sum_{m=1}^{k} \exp\left(c\left(g_{\theta}(\hat{x}), f_{\theta}(x_m)\right)\right)}</tex>

Для обеспечения полноты контекста авторы используют концепцию ''полноконтекстных эмбеддингов'' (англ. ''Full Context Embeddings''). Функции <tex>f_{\theta}</tex> и <tex>g_{\theta}</tex> реализуются не как изолированные сверточные сети, а как двунаправленные [[Рекуррентная нейронная сеть|рекуррентные нейронные сети]] ([[Долгая краткосрочная память|LSTM]]), пропускающие через себя всю выборку <tex>\mathcal{D}_i^{\text{supp}}</tex>. Это позволяет признакам конкретного объекта динамически корректироваться с учетом структуры альтернативных объектов в текущем эпизоде.

=== Прототипические сети (Prototypical Networks) ===

'''Прототипические сети''' (англ. ''Prototypical Networks'') развивают идею метрического метаобучения, вводя предположение, что для каждого класса <tex>c</tex> в латентном пространстве существует единый репрезентативный вектор — '''прототип''' <tex>c_c</tex><ref name="Snell2017">{{статья
|автор = Snell J., Swersky K., Zemel R.
|заглавие = Prototypical Networks for Few-shot Learning
|издание = Advances in Neural Information Processing Systems
|год = 2017
|том = 30
|страницы = 4077–4087
}}</ref>.

В рамках каждого эпизода прототип вычисляется как эмпирическое среднее векторов всех объектов, принадлежащих данному классу в локальной выборке <tex>\mathcal{D}_i^{\text{supp}}</tex>:
:<tex>c_c = \frac{1}{|S_c|} \sum_{(x_j, y_j) \in \mathcal{D}_i^{\text{supp}}: y_j = c} f_{\theta}(x_j)</tex>, где <tex>S_c</tex> — множество объектов класса <tex>c</tex> в <tex>\mathcal{D}_i^{\text{supp}}</tex>.

Распределение вероятностей принадлежности тестового объекта <tex>x' \in \mathcal{D}_i^{\text{query}}</tex> к классу <tex>c</tex> рассчитывается на основе отрицательного [[Евклидово расстояние|евклидова расстояния]] <tex>d</tex> до вычисленных прототипов:
<tex>p(y' = c \mid x') = \frac{\exp\left(-d\left(f_{\theta}(x'), c_c\right)\right)}{\sum_{c'} \exp\left(-d\left(f_{\theta}(x'), c_{c'}\right)\right)}</tex>

Мета-оптимизация параметров <tex>\theta</tex> осуществляется путем минимизации [[Перекрестная энтропия|отрицательного логарифма правдоподобия]] (кросс-энтропии) на множестве всех задач из выборки <tex>\mathcal{D}_{\text{meta-train}}</tex>. Оригинальное исследование показывает тесную связь такого подхода с кластеризацией Брэгмана (англ. ''Bregman divergences'') и моделями экспоненциального семейства распределений. На практике установлено, что использование квадрата евклидова расстояния эмпирически превосходит косинусную меру близости, делая процесс оптимизации более стабильным.

=== Сети отношений (Relation Networks) ===

'''Сети отношений''' (англ. ''Relation Networks'') предлагают альтернативу классическим метрическим методам, отказываясь от использования строго заданных функций расстояния (таких как евклидова или косинусная). В данном подходе метрика близости заменяется отдельной обучаемой нелинейной нейросетевой функцией — '''сетью отношений''' <tex>g_{\psi}</tex><ref name="Sung2018">{{статья
|автор = Sung F., Yang Y., Zhang L., Xiang T., Torresani L., Hospedales T. M.
|заглавие = Learning to Compare: Relation Network for Few-Shot Learning
|издание = Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition
|год = 2018
|страницы = 1199–1208
}}</ref>.

Процесс обработки данных в рамках эпизода устроен следующим образом:
# Экстрактор признаков <tex>f_{\theta}</tex> формирует плотные карты признаков для объектов из <tex>\mathcal{D}_i^{\text{supp}}</tex> и <tex>\mathcal{D}_i^{\text{query}}</tex>.
# Эмбеддинг тестового объекта <tex>f_{\theta}(x')</tex> и эмбеддинг опорного объекта <tex>f_{\theta}(x_j)</tex> (или агрегированного прототипа класса) объединяются оператором конкатенации <tex>\mathcal{C}</tex>.
# Полученный комбинированный вектор подается на вход сети отношений <tex>g_{\psi}</tex>, состоящей из сверточных и полносвязных слоев, которая генерирует вещественный '''индекс отношения''' <tex>r_{j}</tex> в диапазоне <tex>[0, 1]</tex>:
:<tex>r_{j} = g_{\psi} \left( \mathcal{C}\left(f_{\theta}(x_j), f_{\theta}(x')\right) \right)</tex>

Индекс <tex>r_{j}</tex> напрямую интерпретируется как предсказанная [[Вероятность|вероятность]] совпадения классов объектов <tex>x_j</tex> и <tex>x'</tex>. Настройка мета-параметров признаковой сети <tex>\theta</tex> и параметров сети отношений <tex>\psi</tex> выполняется совместно. В качестве критерия оптимизации используется [[Среднеквадратичная ошибка|среднеквадратичная ошибка]] (англ. ''Mean Squared Error, MSE''), смещающая предсказания <tex>r_{j}</tex> к <tex>1</tex> при совпадении истинных меток и к <tex>0</tex> в противном случае.

== Оптимизационные методы (Optimization-based) ==

В то время как метрические методы ищут универсальное пространство признаков, оптимизационные методы концентрируются на динамике самого процесса обучения. Они исходят из того, что стандартные алгоритмы оптимизации (например, [[Стохастический градиентный спуск|SGD]] или [[Adam]]) спроектированы для медленной асимптотической сходимости на больших объемах данных.

Задача оптимизационного метаобучения — заменить эти эвристические правила обновления весов на обучаемый мета-алгоритм или найти такую точку инициализации в пространстве параметров, из которой сходимость к оптимуму новой задачи достигается за минимальное число шагов градиентного спуска.

=== Обучение оптимизатора (LSTM-optimizer) ===

Одним из первых успешных подходов в этой категории стала модель Рави и Ларошеля (Ravi & Larochelle, 2016), в которой правило обновления весов базовой нейронной сети заменяется на динамику скрытого состояния рекуррентной сети<ref name="Ravi2017">{{статья
|автор = Ravi S., Larochelle H.
|заглавие = Optimization as a Model for Few-Shot Learning
|издание = International Conference on Learning Representations
|год = 2017
}}</ref>.

В основе лежит математическая аналогия между шагом градиентного спуска и формулой обновления состояния ячейки [[Долгая краткосрочная память|LSTM]]:
<tex>\theta_{t} = \theta_{t-1} - \alpha \nabla_{\theta_{t-1}} \mathcal{L}</tex>
В парадигме LSTM-оптимизатора параметры базовой сети <tex>\theta</tex> интерпретируются как состояние памяти ячейки <tex>c_t</tex>, а градиент функции потерь <tex>\nabla \mathcal{L}</tex> — как входной сигнал. Мета-алгоритмом выступает сама сеть LSTM, которая предсказывает индивидуальные скорости обучения (через входной гейт <tex>i_t</tex>) и коэффициенты забывания (через гейт забывания <tex>f_t</tex>) для каждого параметра базовой модели:
<tex>\theta_t = f_t \odot \theta_{t-1} + i_t \odot \nabla_{\theta_{t-1}} \mathcal{L}</tex>

=== Model-Agnostic Meta-Learning (MAML) ===

Центральным и наиболее влиятельным алгоритмом данного класса является '''MAML''' (англ. ''Model-Agnostic Meta-Learning'')<ref name="Finn2017">{{статья
|автор = Finn C., Abbeel P., Levine S.
|заглавие = Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks
|издание = Proceedings of the 34th International Conference on Machine Learning
|год = 2017
|том = 70
|страницы = 1126–1135
}}</ref>. Его фундаментальная идея заключается в поиске высокочувствительной инициализации весов <tex>\theta</tex>, универсальной для всего распределения задач <tex>p(\mathcal{T})</tex>.

Процесс оптимизации строго разделен на два вложенных цикла:
# '''Внутренний цикл (Локальная адаптация):''' Для конкретной задачи <tex>\mathcal{T}_i</tex> базовая модель выполняет один или несколько шагов градиентного спуска, используя обучающую выборку задачи <tex>\mathcal{D}_i^{\text{supp}}</tex>. Новые параметры задачи <tex>\phi_i</tex> вычисляются как: <tex>\phi_i = \theta - \alpha \nabla_{\theta} \mathcal{L}_{\mathcal{T}_i}(\theta, \mathcal{D}_i^{\text{supp}})</tex>, где <tex>\alpha</tex> — гиперпараметр скорости обучения внутреннего шага (англ. ''inner learning rate'').
# '''Внешний цикл (Мета-обновление):''' Качество полученных параметров <tex>\phi_i</tex> оценивается на тестовой выборке задачи <tex>\mathcal{D}_i^{\text{query}}</tex>. Вектор мета-параметров <tex>\theta</tex> обновляется в направлении градиента от суммы функций потерь по всем задачам в мета-батче: <tex>\theta \leftarrow \theta - \beta \nabla_{\theta} \sum_{i} \mathcal{L}_{\mathcal{T}_i}(\phi_i, \mathcal{D}_i^{\text{query}})</tex>, где <tex>\beta</tex> — скорость обучения мета-оптимизатора.

==== Вычислительная сложность и проблема вторых производных ====

Ключевая математическая и вычислительная трудность MAML кроется в операции вычисления внешнего градиента <tex>\nabla_{\theta} \mathcal{L}_{\mathcal{T}_i}(\phi_i)</tex>. Поскольку параметры <tex>\phi_i</tex> сами являются функцией от <tex>\theta</tex>, применение [[Дифференцирование сложной функции|цепного правила дифференцирования]] порождает вычисление градиента от градиента:
<tex>\nabla_{\theta} \mathcal{L}_{\mathcal{T}_i}(\phi_i) = \nabla_{\phi_i} \mathcal{L}_{\mathcal{T}_i}(\phi_i) \cdot \nabla_{\theta} \phi_i = \nabla_{\phi_i} \mathcal{L}_{\mathcal{T}_i}(\phi_i) \cdot \left( I - \alpha \nabla_{\theta}^2 \mathcal{L}_{\mathcal{T}_i}(\theta, \mathcal{D}_i^{\text{supp}}) \right)</tex>
Член <tex>\nabla_{\theta}^2 \mathcal{L}</tex> представляет собой [[Матрица Гессе|Гессиан]] (матрицу вторых производных).

Для современных глубоких сетей с миллионами параметров явное вычисление и хранение Гессиана требует значительных вычислительных ресурсов и памяти (сложность <tex>O(N^2)</tex>). Поэтому на практике точный MAML применяется редко, а вместо него часто используют эффективные приближения (например, Hessian-vector products) или алгоритмы, снижающие порядок производных.

==== Модификации для повышения стабильности ====

Для обхода вычислительных ограничений MAML были разработаны специализированные математические методы:
* '''FOMAML''' (англ. ''First-Order MAML''): Радикально упрощает внешний шаг, приравнивая член со второй производной к нулю (<tex>\nabla_{\theta}^2 \mathcal{L} \approx 0</tex>). Эффективно работает на простых задачах, но страдает от потери информации о кривизне пространства признаков.
* '''Reptile''': Алгоритм, предложенный исследователями OpenAI<ref name="Nichol2018">{{статья
|автор = Nichol A., Achiam J., Schulman J.
|заглавие = On First-Order Meta-Learning Algorithms
|издание = arXiv preprint arXiv:1803.02999
|год = 2018
|страницы = 1–14
}}</ref>. В нем полностью исключается взятие сквозных градиентов через траекторию оптимизации. Вместо этого мета-веса сдвигаются непосредственно в сторону весов, полученных после адаптации: <tex>\theta \leftarrow \theta + \epsilon (\phi_i - \theta)</tex>.
* '''iMAML''' (англ. ''Implicit MAML''): Решает проблему строго аналитически<ref name="Rajeswaran2019">{{статья
|автор = Rajeswaran A., Finn C., Kakade S. M., Levine S.
|заглавие = Meta-Learning with Implicit Gradients
|издание = Advances in Neural Information Processing Systems
|год = 2019
|том = 32
|страницы = 113–124
}}</ref>. Используя [[Теорема о неявной функции|теорему о неявной функции]], алгоритм отделяет вычисление мета-градиента от конкретной траектории внутреннего оптимизатора. Мета-градиент вычисляется только на основе финальной стационарной точки <tex>\phi_i</tex>, что позволяет использовать сколь угодно долгие внутренние циклы (вплоть до сходимости) без экспоненциального роста требований к памяти.

== Модельные методы и архитектуры с памятью (Model-based / Memory-based) ==

Модельные подходы рассматривают метаобучение как задачу обработки последовательностей (англ. ''sequence modeling''). Здесь функции мета-алгоритма и базового алгоритма инкапсулированы внутри единой сложной архитектуры. Адаптация происходит не за счет изменения синаптических весов сети с помощью обратного распространения ошибки, а путем изменения скрытых состояний сети (активаций) или записи данных во внешнюю [[Память ЭВМ|память]]. Модель получает на вход конкатенированные пары <tex>(x, y)</tex> из support set и должна предсказать метку для нового объекта <tex>x'</tex> из query set.

=== Memory-Augmented Neural Networks (MANN) ===

Архитектура '''MANN''' опирается на концепцию Нейронных машин Тьюринга (NTM)<ref name="Santoro2016">{{статья
|автор = Santoro A., Bartunov S., Botvinick M., Wierstra D., Lillicrap T.
|заглавие = Meta-Learning with Memory-Augmented Neural Networks
|издание = Proceedings of the 33rd International Conference on Machine Learning
|год = 2016
|том = 48
|страницы = 1842–1850
}}</ref>. Она состоит из контроллера (как правило, LSTM или сверточной сети) и дифференцируемого блока внешней памяти (матрицы <tex>M</tex>).

Когда модель получает элемент <tex>x_j</tex> из <tex>\mathcal{D}_i^{\text{supp}}</tex>, контроллер формирует вектор-ключ записи (англ. ''write key''), который связывает признаки объекта с его меткой <tex>y_j</tex> и сохраняет их в матрице памяти. Обращение к памяти реализуется через механизм косинусного сходства (англ. ''content-based addressing''). При подаче тестового объекта <tex>x'</tex> контроллер формирует ключ чтения (англ. ''read key'') <tex>k_r</tex>, который сравнивается со всеми ячейками памяти. Выходной вектор считывается как взвешенная сумма содержимого ячеек:
<tex>w_i^r = \text{softmax}\left( \cos(k_r, M_i) \right), \quad r = \sum_i w_i^r M_i</tex>

Чтобы избежать переполнения памяти при обработке большого потока задач, MANN применяет стратегию LRUA (англ. ''Least Recently Used Access''), затирая информацию из эпизодов, к которым обращались реже всего.

=== Simple Neural Attentive Learner (SNAIL) ===

Обычные рекуррентные сети (RNN/LSTM) плохо справляются с длинными эпизодами в задачах метаобучения из-за проблемы затухания или взрыва скрытых состояний (англ. ''vanishing gradients''). '''SNAIL''' комбинирует два мощных архитектурных паттерна<ref name="Mishra2018">{{статья
|автор = Mishra N., Rohaninejad M., Chen X., Abbeel P.
|заглавие = A Simple Neural Attentive Learner
|издание = International Conference on Learning Representations
|год = 2018
}}</ref>:
# '''Временные свертки''' (англ. ''Temporal Convolutions / Causal 1D Convolutions''): Свертки с расширением (dilated convolutions), оперирующие вдоль оси времени. Они обеспечивают моделям большую пропускную способность, позволяя агрегировать высокочастотный локальный контекст из предшествующих примеров без потери информации.
# '''Мягкое внимание''' (англ. ''Soft Attention''): Механизм, заимствованный из архитектуры [[Трансформер|трансформеров]] (англ. ''Transformers''). Он позволяет сети точечно извлекать релевантные фрагменты прошлого опыта из обучающей выборки задачи, формируя контекстно-зависимые представления вне зависимости от удаленности объектов в последовательности.

В архитектуре SNAIL блоки одномерных причинно-следственных сверток чередуются с блоками самовнимания (англ. ''self-attention''). Свертки извлекают общие темпоральные закономерности из последовательности объектов, а механизмы внимания точечно извлекают релевантный опыт, делая эту архитектуру одним из самых мощных модельных бейзлайнов в области глубокого метаобучения.

== Теоретические основы и анализ обобщающей способности ==

В отличие от классической [[Теория статистического обучения|теории статистического обучения]], исследующей сходимость [[Эмпирический риск|эмпирического риска]] к истинному в рамках одной изолированной задачи, теоретический анализ метаобучения оперирует концепцией '''мета-обобщения''' (англ. ''meta-generalization'').

Основной вопрос теории заключается в следующем: с какой вероятностью мета-алгоритм, обученный на конечном множестве из <tex>M</tex> задач, сможет обеспечить эффективную адаптацию базового алгоритма на новой, ранее не встречавшейся задаче <tex>\mathcal{T}_{\text{new}} \sim p(\mathcal{T})</tex>?

=== Границы мета-обобщения через Радемахеровскую сложность ===

Для строгой оценки обобщающей способности применяются аппараты [[Теория Вапника-Червоненкиса|теории Вапника-Червоненкиса]] и [[Радемахеровская сложность|Радемахеровской сложности]] (англ. ''Rademacher complexity''), адаптированные для двухуровневых пространств гипотез<ref name="Maurer2005">{{статья
|автор = Maurer A.
|заглавие = A Bound on the Error of a Meta-Algorithm
|издание = International Conference on Algorithmic Learning Theory
|год = 2005
|страницы = 351–360
}}</ref>. Пусть <tex>\mathcal{H}</tex> — мета-пространство гипотез, элементами которого являются функции адаптации <tex>f_{\theta}</tex>, а каждая задача содержит обучающую выборку размера <tex>K</tex> и тестовую выборку размера <tex>Q</tex>. Вероятностная верхняя граница истинного риска метаобучения на новых задач с вероятностью не менее <tex>1 - \delta</tex> имеет вид:
<tex>\mathcal{R}_{\text{meta}}(\theta) \le \hat{\mathcal{R}}_{\text{meta}}(\theta) + 2\mathcal{R}_M(\mathcal{H}) + \mathcal{O}\left(\sqrt{\frac{\ln(1/\delta)}{M}}\right) + \sum_{i=1}^M \mathcal{O}\left(\sqrt{\frac{\ln(1/\delta)}{Q}}\right)</tex>
где <tex>\hat{\mathcal{R}}_{\text{meta}}(\theta)</tex> — эмпирический мета-риск, вычисленный на мета-обучающей выборке, а <tex>\mathcal{R}_M(\mathcal{H})</tex> — Радемахеровская сложность мета-пространства гипотез по отношению к распределению задач.

Из этой формулировки следует фундаментальный вывод метаобучения: для минимизации ошибки обобщения необходимо увеличивать не только объем данных внутри конкретных задач (<tex>Q \to \infty</tex>), но и, в первую очередь, количество самих репрезентативных задач в мета-батче (<tex>M \to \infty</tex>). Если число задач <tex>M</tex> мало, модель неизбежно подвергается '''мета-переобучению''' (англ. ''meta-overfitting''), независимо от объема данных внутри каждой задачи.

=== PAC-Байесовский подход к метаобучению ===

'''PAC-Байесовская теория''' (англ. ''PAC-Bayes theory'') предоставляет наиболее гибкий инструмент для анализа метаобучения, интерпретируя мета-параметры <tex>\theta</tex> как регуляризатор априорного знания<ref name="Pentina2014">{{статья
|автор = Pentina A., Lampert C. H.
|заглавие = A PAC-Bayesian Bound for Lifelong Learning
|издание = Proceedings of the 31st International Conference on Machine Learning
|год = 2014
|том = 32
|страницы = 991–999
}}</ref>. В этой схеме мета-алгоритм обучается задавать семейство распределений вероятностей над [[Пространство гипотез|пространством гипотез]] базового алгоритма.

Путь <tex>P_{\theta}</tex> — '''мета-априорное распределение''' (англ. ''meta-prior''), общее для всех задач и параметризованное вектором <tex>\theta</tex>. В процессе локальной адаптации к задаче <tex>\mathcal{T}_i</tex>, базовый алгоритм строит локальное [[Апостериорное распределение|апостериорное распределение]] <tex>Q_i</tex> на основе предоставленного <tex>\mathcal{D}_i^{\text{supp}}</tex>.

Информационное ограничение на обобщающую способность в PAC-Байесовском метаобучении формулируется через штраф за отклонение локальных решений от мета-априорного базиса с использованием [[Расстояние Кульбака — Лейблера|дивергенции Кульбака-Лейблера]] <tex>D_{\text{KL}}</tex>:
:<tex>\mathbb{E}_{\mathcal{T}_i} \left[ \mathcal{R}(\mathcal{T}_i, Q_i) \right] \le \mathbb{E}_{\mathcal{T}_i} \left[ \hat{\mathcal{R}}(\mathcal{D}_i^{\text{query}}, Q_i) \right] + \mathcal{O}\left( \sqrt{\frac{D_{\text{KL}}(P_{\theta} \parallel \Pi) + \frac{1}{M}\sum_{i=1}^M D_{\text{KL}}(Q_i \parallel P_{\theta}) + \ln\frac{M}{\delta}}{M \times K}} \right)</tex>
где <tex>\Pi</tex> — фиксированное гипер-априорное распределение «нулевого уровня».

Данная граница наглядно демонстрирует баланс: мета-алгоритм стремится найти такое распределение <tex>P_{\theta}</tex>, которое, с одной стороны, близко к истинной структуре среды (<tex>D_{\text{KL}}(P_{\theta} \parallel \Pi)</tex> ограничено), а с другой — позволяет локальным апостериорным распределениям <tex>Q_i</tex> быстро подстраиваться под специфику конкретных задач без сильного удаления от центральной траектории.

=== Информационно-теоретический взгляд и принцип MDL ===

С точки зрения теории информации и '''принципа минимальной длины описания''' (англ. ''Minimum Description Length, MDL''), метаобучение можно трактовать как двухэтапный процесс оптимального кодирования и сжатия информации<ref name="Grant2018">{{статья
|автор = Grant E., Finn C., Levine S., Darrell T., Griffiths T.
|заглавие = Recasting Gradient-Based Meta-Learning as Hierarchical Bayes
|издание = International Conference on Learning Representations
|год = 2018
|страницы = 1–12
}}</ref>. Мета-параметры <tex>\theta</tex> представляют собой компактный «словарь» или код для описания топологии распределения задач <tex>p(\mathcal{T})</tex>.

Согласно этой парадигме, максимизация мета-обобщения эквивалентна минимизации суммарной длины описания данных: сначала кодируются общие инварианты среды (мета-знания <tex>\theta</tex>), а затем — локальные отклонения конкретной задачи <tex>\mathcal{T}_i</tex> относительно этой мета-структуры. Это объясняет, почему оптимизационные методы типа MAML находят параметры в областях пространства весов с гладкой и пологой [[Функция потерь|поверхностью потерь]] (англ. ''flat minima''): такие области обладают меньшей информационной [[Энтропия Шеннона|энтропией]] и более устойчивы к шуму в данных.

== Продвинутые концепции и современные тренды ==

=== Непрерывное и онлайновое метаобучение (Continuous / Online Meta-Learning) ===

Классическая постановка задачи метаобучения предполагает, что все задачи в выборке <tex>\mathcal{D}_{\text{meta-train}}</tex> доступны одновременно и сэмплируются из стационарного распределения. В реальных сценариях агенты сталкиваются с нестационарными потоками данных. '''Непрерывное метаобучение''' (англ. ''Continuous / Continual Meta-Learning'') решает задачу адаптации к последовательно поступающим новым классам задач, стремясь преодолеть эффект '''катастрофического забывания''' (англ. ''catastrophic forgetting'') на уровне мета-параметров<ref name="Finn2019">{{статья
|автор = Finn C., Rajeswaran A., Kakade S., Levine S.
|заглавие = Online Meta-Learning
|издание = Proceedings of the 36th International Conference on Machine Learning
|год = 2019
|том = 97
|страницы = 1920–1930
}}</ref>. Накопленные глобальные мета-знания <tex>\theta</tex> не должны разрушаться при переходе от одного типа сред к другим (например, от задач классификации текстов к классификации изображений).

=== Мета-обучение с подкреплением (Meta-Reinforcement Learning / Meta-RL) ===

В задачах [[Обучение с подкреплением|обучения с подкреплением]] классические агенты требуют миллионов шагов взаимодействия со средой для построения эффективной [[Стратегия (теория игр)|стратегии]]. В рамках '''Meta-RL''' (алгоритмы <tex>RL^2</tex><ref name="Duan2016">{{статья
|автор = Duan Y., Schulman J., Chen X., Bartlett P. L., Sutskever I., Abbeel P.
|заглавие = RL^2: Fast Reinforcement Learning via Slow Reinforcement Learning
|издание = arXiv preprint arXiv:1611.02779
|год = 2016
|страницы = 1–14
}}</ref>, PEARL<ref name="Rakelly2019">{{статья
|автор = Rakelly K., Zhou A., Quillen De., Finn C., Levine S.
|заглавие = Efficient Off-Policy Meta-Reinforcement Learning via Probabilistic Context Variables
|издание = Proceedings of the 36th International Conference on Machine Learning
|год = 2019
|том = 97
|страницы = 5331–5340
}}</ref>) агент мета-обучается на распределении различных [[Марковский процесс принятия решений|Марковских процессов принятия решений]] (MDP).

Главное продвижение Meta-RL заключается в том, что мета-алгоритм обучается не просто фиксированной траектории действий, а оптимальному балансу между исследованием (англ. ''exploration'') неизвестной среды и эксплуатацией (англ. ''exploitation'') накопленных знаний. За несколько стартовых шагов в новой среде (разведка) мета-агент идентифицирует скрытые параметры текущего MDP (например, геометрию лабиринта или физические свойства гравитации симулятора) и мгновенно перестраивает базовое поведение.

=== Связь с AutoML и поиском архитектур (NAS) ===

Метаобучение выступает математическим ядром для систем автоматического машинного обучения (англ. ''Automated Machine Learning, AutoML''). Вместо долгого и ресурсоемкого перебора [[Гиперпараметр|гиперпараметров]] (скорости обучения, коэффициентов регуляризации) для каждой новой выборки, мета-алгоритм предсказывает их оптимальные значения за один проход, опираясь на мета-признаки (англ. ''meta-features'') датасета.

В области '''поиска архитектур нейронных сетей''' (англ. ''Neural Architecture Search, NAS'') дифференцируемые методы метаобучения позволяют одновременно оптимизировать как веса векторов, так и саму дискретную топологию графа слоев нейросети<ref name="Liu2019">{{статья
|автор = Liu H., Simonyan K., Yang Y.
|заглавие = DARTS: Differentiable Architecture Search
|издание = International Conference on Learning Representations
|год = 2019
|страницы = 1–13
}}</ref>.

=== In-Context Learning в больших языковых моделях как неявное метаобучение ===

Одним из наиболее значимых открытий в современном искусственном интеллекте стало обнаружение феномена '''обучения в контексте''' (англ. ''In-Context Learning, ICL'') у [[Большая языковая модель|больших языковых моделей]] (LLM) на архитектуре Трансформер. Когда предобученной текстовой модели подается на вход [[Промптинг|Few-shot промпт]], содержащий несколько примеров выполнения новой задачи (контекст), и затем тестовый вопрос:
<pre>
Книга -> Отлично
Завещание -> Нейтрально
Катастрофа -> Плохо
Эйфория ->
</pre>
модель успешно генерирует правильный ответ («Отлично»), хотя её веса в этот момент полностью заморожены и операция [[Обратное распространение ошибки|обратного распространения ошибки]] не выполняется.

В современных исследованиях (в частности, работы Von Oswald et al., 2023<ref name="VonOswald2023">{{статья
|автор = Von Oswald J., Niklasson E., Scherrer E., Bilbao N. B., Sacramento J., Pouget A., Angelova R.
|заглавие = Transformers learn in-context by gradient descent
|издание = Proceedings of the 40th International Conference on Machine Learning
|год = 2023
|том = 202
|страницы = 35151–35174
}}</ref>; Dai et al., 2023<ref name="Dai2023">{{статья
|автор = Dai D., Sun Y., Dong L., Hao Y., Ma S., Sui Z., Wei F.
|заглавие = Why Can GPT Learn In-Context? Language Models Secretly Perform Gradient Descent as Meta-Optimizers
|издание = Findings of the Association for Computational Linguistics: ACL 2023
|год = 2023
|страницы = 4005–4019
}}</ref>) выдвигается сильная гипотеза, подкрепленная теоретическими и эмпирическими аргументами, что масштабное предобучение (англ. ''pre-training'') модели на гигантских корпусах текстов можно интерпретировать как скрытое метаобучение.

В рамках этих работ предполагается, что в процессе авторегрессионного предсказания токенов динамика сети аппроксимирует шаги градиентного спуска. При подаче Few-shot промпта контекстные примеры выступают прямым аналогом обучающей выборки задачи (<tex>\mathcal{D}_i^{\text{supp}}</tex>), а целевой токен — тестовым объектом (<tex>\mathcal{D}_i^{\text{query}}</tex>). Таким образом, предполагается, что генерация ответа происходит за счет мгновенной мета-адаптации внутри пространства активаций (динамических состояний) модели.

== Ограничения, критика и открытые проблемы ==

Несмотря на мощный математический аппарат и концептуальную элегантность, парадигма метаобучения имеет ряд существенных ограничений, которые активно исследуются в современном научном сообществе.

=== Проблема вычислительной сложности ===
Многие оптимизационные алгоритмы (в первую очередь семейство MAML) требуют вычисления градиентов от градиентов (вторых производных). Несмотря на существование аппроксимаций вроде Reptile или iMAML, вычисление мета-градиента остается ресурсоемким по памяти и времени по сравнению с классическим [[Обучение с учителем|обучением с учителем]]. Кроме того, оптимизация в двухуровневых пространствах параметров характеризуется высокой нестабильностью сходимости.

=== Запоминание и мета-переобучение (Meta-overfitting) ===
Одной из фундаментальных уязвимостей является '''мета-переобучение'''. Если разнообразие задач в выборке <tex>\mathcal{D}_{\text{meta-train}}</tex> недостаточно велико, базовая модель (или экстрактор признаков) может полностью проигнорировать локальную обучающую выборку <tex>\mathcal{D}_i^{\text{supp}}</tex> и просто «запомнить» всё распределение задач в весах <tex>\theta</tex>. В этом сценарии модель перестает адаптироваться и вырождается в стандартный классификатор, что приводит к катастрофическому падению точности на новых (OOD) задачах.

=== Проблема сдвига распределения задач (Task-Shift) ===
Теоретические гарантии метаобучения строятся на предположении, что задачи для обучения и тестирования сэмплируются из единого распределения <tex>p(\mathcal{T})</tex>. На практике (например, при переходе от классификации медицинских снимков к спутниковым) возникает сильный сдвиг распределения задач. Большинство современных мета-моделей показывают низкую робастность к таким OOD-сценариям, зачастую уступая качественно настроенному классическому [[Трансферное обучение|трансферному обучению]] (pre-training + fine-tuning).

=== Выбор и репрезентативность бенчмарков ===
В течение долгого времени метрикой успеха метаобучения служили датасеты ''Omniglot'' и ''Mini-ImageNet''. Со временем выяснилось, что данные бенчмарки могут не в полной мере отражать реальную сложность прикладных задач, а метрики на них постепенно приближаются к предельно возможным. Создание более сложных сред, таких как ''Meta-Dataset'' или ''Meta-Baseline'', продемонстрировало, что тщательно настроенные простые бейзлайны на основе аугментации данных и классического извлечения признаков зачастую работают наравне со сложными двухуровневыми мета-алгоритмами.

== См. также ==

* [[Обучение по нескольким примерам]] (англ. ''Few-shot learning'') — основной прикладной сценарий использования алгоритмов метаобучения, направленный на классификацию или регрессию при экстремальном дефиците данных.
* [[Трансферное обучение]] — смежная парадигма переноса знаний, основанная на предобучении базовой модели на большом объеме данных с последующим дообучением (fine-tuning), не использующая формальную генерацию «эпизодов».
* [[Многозадачное обучение]] — подход, при котором одна модель обучается решать несколько различных задач одновременно для поиска полезного разделяемого представления.
* [[AutoML]] — область, занимающаяся автоматизацией сквозного процесса машинного обучения, где метаобучение часто применяется для инициализации поиска архитектур (NAS) и гиперпараметров.
* [[Механизм внимания|Механизм внимания]] — математический аппарат, играющий ключевую роль в метрических и модельных методах метаобучения, а также в ''In-context learning''.

== Примечания ==
{{Примечания}}

== Литература ==
* {{книга
|автор = Thrun S., Pratt L.
|заглавие = Learning to Learn
|место = Boston
|издательство = Springer US
|год = 1998
|isbn = 978-1-4615-5529-2
}}
* {{статья
|автор = Hospedales T., Antoniou A., Micaelli P., Storkey A.
|заглавие = Meta-Learning in Neural Networks: A Survey
|издание = IEEE Transactions on Pattern Analysis and Machine Intelligence
|год = 2021
|том = 44
|номер = 9
|страницы = 5149–5169
}}
* {{статья
|автор = Vanschoren J.
|заглавие = Meta-Learning: A Survey
|издание = arXiv preprint arXiv:1810.03548
|год = 2018
}}
* {{статья
|автор = Hochreiter S., Younger A. S., Conwell P. R.
|заглавие = Learning to Learn Using Gradient Descent with LSTM
|издание = International Conference on Artificial Neural Networks
|год = 2001
|страницы = 87–94
}}
* {{статья
|автор = Koch G., Zemel R., Salakhutdinov R.
|заглавие = Siamese Neural Networks for One-Shot Image Recognition
|издание = ICML Deep Learning Workshop
|год = 2015
|том = 2
}}
* {{статья
|автор = Santoro A., Bartunov S., Botvinick M., Wierstra D., Lillicrap T.
|заглавие = Meta-Learning with Memory-Augmented Neural Networks
|издание = Proceedings of the 33rd International Conference on Machine Learning
|год = 2016
|том = 48
|страницы = 1842–1850
}}
* {{статья
|автор = Vinyals O., Blundell C., Lillicrap T., Kavukcuoglu K., Wierstra D.
|заглавие = Matching Networks for One Shot Learning
|издание = Advances in Neural Information Processing Systems
|год = 2016
|том = 29
|страницы = 3630–3638
}}
* {{статья
|автор = Finn C., Abbeel P., Levine S.
|заглавие = Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks
|издание = Proceedings of the 34th International Conference on Machine Learning
|год = 2017
|том = 70
|страницы = 1126–1135
}}
* {{статья
|автор = Ravi S., Larochelle H.
|заглавие = Optimization as a Model for Few-Shot Learning
|издание = International Conference on Learning Representations
|год = 2017
}}
* {{статья
|автор = Snell J., Swersky K., Zemel R.
|заглавие = Prototypical Networks for Few-shot Learning
|издание = Advances in Neural Information Processing Systems
|год = 2017
|том = 30
|страницы = 4077–4087
}}
* {{статья
|автор = Sung F., Yang Y., Zhang L., Xiang T., Torresani P., Hospedales T. M.
|заглавие = Learning to Compare: Relation Network for Few-Shot Learning
|издание = Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition
|год = 2018
|страницы = 1199–1208
}}

[[Категория:Машинное обучение]]

Принцип эмпирической индукции Бэкона в машинном обучении

2026-06-23T14:43:41Z

Описание изменений: Новая: {{well|СТАТЬЯ В РАЗРАБОТКЕ: Этот материал сейчас находится в процессе активного редактирования и дорабо...

{{well|СТАТЬЯ В РАЗРАБОТКЕ: Этот материал сейчас находится в процессе активного редактирования и доработки участником Polina Khadralinova. Просьба не оценивать статью до снятия этой пометки.}}
Промпт приводится полностью в [[Обсуждение:Принцип эмпирической индукции Бэкона в машинном обучении]]

== Введение ==

'''Принцип эмпирической индукции в машинном обучении''' — это фундаментальная эпистемологическая парадигма, лежащая в основе извлечения закономерностей из данных. В контексте искусственного интеллекта машинное обучение представляет собой не что иное, как строгую алгоритмическую автоматизацию индуктивного научного метода: процесса вывода общего функционального правила или закона из конечного множества частных наблюдений (прецедентов).

В отличие от дедуктивного программирования, где инженер вручную задаёт правила (<tex>A \Rightarrow B</tex>) для обработки входных данных, индуктивный подход машинного обучения обращает этот процесс. Алгоритму предоставляются пары «вход-выход», и его задачей становится автоматическое конструирование оптимального правила (модели), способного обобщать полученный опыт на ранее не встречавшиеся объекты. Исторически и философски этот подход уходит корнями в эмпирический метод Фрэнсиса Бэкона, который впервые формализовал процедуру индуктивного познания.

== Исторический контекст и «Таблицы открытия» ==

=== Новый Органон и критика Аристотеля ===
В 1620 году английский философ Фрэнсис Бэкон опубликовал свой фундаментальный труд «Новый Органон» (лат. ''Novum Organum''). Название было выбрано неслучайно: работа противопоставлялась «Органону» Аристотеля, базировавшемуся на силлогизмах и дедукции. Бэкон подверг жёсткой критике дедуктивный метод как бесплодный для открытия новых знаний о природе, поскольку выводы силлогизма уже неявно заложены в его посылках.

Вместо этого Бэкон предложил строгий метод ''истинной индукции'' (в отличие от наивной индукции через простое перечисление), основанный на систематическом сборе, структурировании и анализе эмпирических фактов. Инструментарием этого метода стали так называемые «Таблицы открытия» (или таблицы индукции), которые концептуально предвосхитили архитектуру современных обучающих выборок.

=== Три таблицы Бэкона как прообраз датасета ===
Бэкон выделил три типа таблиц для сбора данных, которые поразительно точно ложатся на современные задачи машинного обучения:
* '''Таблица присутствия (Table of Presence):''' В неё заносились все известные случаи, когда исследуемое явление (например, теплота) наблюдается. На языке современного ML это соответствует формированию класса положительных примеров в задаче бинарной классификации (<tex>y_i = +1</tex>).
* '''Таблица отсутствия (Table of Absence):''' В неё заносились случаи, максимально похожие на предыдущие, но в которых исследуемое свойство отсутствует. Это прямой аналог сбора отрицательных примеров (<tex>y_i = -1</tex>), что критически важно для построения разделяющей гиперплоскости алгоритмом.
* '''Таблица степеней (Table of Degrees):''' В неё заносились случаи, где явление присутствует в разной степени интенсивности. В математической статистике и машинном обучении это полностью соответствует постановке задачи регрессии, где целевая переменная является непрерывной величиной (<tex>y_i \in \mathbb{R}</tex>).

Совокупность этих трёх таблиц образует то, что сегодня мы называем '''матрицей «объект-признак»''' (датасетом), где строки — это отдельные эмпирические наблюдения Бэкона, а столбцы — зафиксированные условия среды (признаки).

== Математическая формализация: от индукции к эмпирическому риску ==

=== Обучающая выборка и признаковое пространство ===
Целью бэконовского метода был поиск «формы» — скрытого закона, порождающего наблюдаемые явления. Переведём эту философскую концепцию на строгий язык математики, используя классические обозначения школы К.В. Воронцова.

Пусть <tex>X</tex> — пространство объектов (наблюдений), а <tex>Y</tex> — пространство ответов (искомых свойств). Метод начинается со сбора конечного набора эмпирических фактов (заполнения таблиц). Зададим обучающую выборку (прецеденты) объёма <tex>\ell</tex>:
::<tex>X^\ell = \{ (x_1, y_1), \dots, (x_{\ell}, y_{\ell}) \}</tex>,
где <tex>x_i \in X</tex> — <tex>i</tex>-й объект, <tex>y_i \in Y</tex> — известный ответ для этого объекта.

Для компьютерной обработки каждый объект <tex>x</tex> описывается вектором числовых характеристик (признаков):
::<tex>x \mapsto (f_1(x), f_2(x), \dots, f_n(x))</tex>

=== Поиск закономерности и минимизация эмпирического риска (ERM) ===
Алгоритмический поиск бэконовской «формы» сводится к выбору параметрического семейства моделей <tex>a(x, w)</tex>, где <tex>w \in W</tex> — вектор настраиваемых параметров (весов). Задача индукции теперь формулируется как задача оптимизации: нужно найти такой вектор параметров <tex>w^*</tex>, при котором модель <tex>a(x, w)</tex> наилучшим образом описывает собранные данные <tex>X^\ell</tex>.

Для оценки степени несоответствия между предсказанием модели и истинным эмпирическим фактом вводится функция потерь <tex>\mathcal{L}(a(x, w), y)</tex>.

Индуктивный метод Бэкона в своей современной алгоритмической реинкарнации принимает форму '''принципа минимизации эмпирического риска (Empirical Risk Minimization, ERM)'''. Эмпирический риск <tex>Q(w)</tex> — это средняя ошибка модели на всей обучающей выборке:
::<tex>Q(w) = \frac{1}{\ell} \sum_{i=1}^{\ell} \mathcal{L}(a(x_i, w), y_i) \to \min_{w}</tex>

Решая эту оптимизационную задачу (например, с помощью градиентного спуска), алгоритм выводит общую закономерность из частных случаев таблиц, автоматизируя процесс научного открытия.

== Проблемы индукции: Идолы разума и переобучение ==

=== Четыре «идола» Бэкона и смещение данных (Data Bias) ===
Бэкон понимал, что данные из реального мира часто бывают искажены. Он выделил четыре типа заблуждений, которые назвал «идолами разума». Эти философские концепции удивительно точно описывают современные проблемы систематического смещения данных (Data Bias) и переобучения:
* '''Идолы Рода''' (природа человека). Ошибки, связанные с несовершенством человеческих органов чувств. В машинном обучении это эквивалентно аппаратному шуму сенсоров или ограничениям измерительных приборов, которые искажают значения признаков <tex>f_j(x)</tex>.
* '''Идолы Пещеры''' (личный опыт). Искажения из-за узкого кругозора конкретного человека. В ML это классическое смещение выборки (Selection Bias). Если модель обучена распознавать лица только людей европейской внешности, она не сможет обобщить свой опыт на весь мир, так как выборка <tex>X^\ell</tex> нерепрезентативна.
* '''Идолы Площади''' (общение и слова). Ошибки из-за неточного использования слов. В ML это соответствует ошибкам разметки датасета (Label Noise), когда асессоры по-разному понимают инструкцию и ставят объектам противоречивые метки <tex>y_i</tex>.
* '''Идолы Театра''' (слепая вера в авторитеты). Доверие к модным, но ошибочным теориям. Сегодня это можно сравнить со стремлением инженеров использовать избыточно сложные, «модные» архитектуры (например, глубокие нейросети) там, где достаточно простой линейной регрессии. Это неизбежно ведёт к переобучению модели.

== Автоматизация научного метода: от Бэкона к Попперу ==

Главная слабость чистой индукции заключается в том, что конечное число наблюдений не гарантирует истинность выведенного закона. Если алгоритм просто сведёт эмпирический риск <tex>Q(w)</tex> к нулю, он может выучить данные наизусть вместе со всем шумом. Это явление называется переобучением (Overfitting). Модель станет идеальной для старых данных, но бесполезной для новых.

Чтобы решить эту проблему, современное машинное обучение объединило индукцию Бэкона с критерием фальсифицируемости Карла Поппера. Поппер утверждал: любая научная гипотеза должна подвергаться строгим проверкам и попыткам опровержения.

На практике это достигается через разделение данных (train/test split). Обучающая выборка <tex>X^\ell</tex> используется по Бэкону — для создания гипотезы (модели <tex>a(x, w^*)</tex>). Но успех этой модели проверяется по Попперу — на совершенно независимой тестовой выборке объёма <tex>k</tex>:
::<tex>X^k = \{ (x'_1, y'_1), \dots, (x'_k, y'_k) \}</tex>

Качество обобщения оценивается через ошибку на тесте <tex>Q_{\text{test}}(w^*)</tex>:
::<tex>Q_{\text{test}}(w^*) = \frac{1}{k} \sum_{i=1}^k \mathcal{L}(a(x'_i, w^*), y'_i)</tex>

Если тестовая ошибка <tex>Q_{\text{test}}(w^*)</tex> значительно превышает ошибку на обучении <tex>Q(w)</tex>, гипотеза объявляется фальсифицированной (модель переобучилась) и отвергается как несостоятельная.

== См. также ==
* [[Минимизация эмпирического риска]]
* [[Переобучение]]
* [[Скользящий контроль]]

== Примечания ==
<references/>

== Литература ==
* {{книга | author = Бэкон Ф. | заглавие = Новый Органон, или Истинные указания для истолкования природы | место = М. | издательство = Мысль | год = 1978 }}
* {{книга | author = Воронцов К. В. | заглавие = Машинное обучение (курс лекций) | ссылка = http://www.machinelearning.ru/wiki/index.php?title=Машинное_обучение_(курс_лекций,_К.В.Воронцов) | год = 2023 }}
* {{книга | author = Вьюгин В. В. | заглавие = Математические основы теории машинного обучения и прогнозирования | место = М. | издательство = МЦНМО | год = 2013 }}

[[Категория:Машинное обучение]]
[[Категория:Теория вычислительного обучения]]

Проксимальный градиентный спуск

2026-06-23T13:29:10Z

{{well|Статья написана с использованием LLM '''Gemini 3.1 Pro''' и проверена участником [[Участник:Renal Gazizullin|Renal Gazizullin]] 16:30, 23 июня 2026 (MSD)}}
'''Проксимальный градиентный спуск''' — метод оптимизации первого порядка, предназначенный для решения задач композитной оптимизации, в которых целевая функция представима в виде суммы гладкой и негладкой выпуклых компонент.

== Введение и формальная постановка задачи ==

Рассматривается задача безусловной минимизации:
:: <tex>\min_{x \in \mathbb{R}^d} F(x) = f(x) + g(x),</tex>
где:
* <tex>f: \mathbb{R}^d \to \mathbb{R}</tex> — выпуклая дифференцируемая функция, градиент которой <tex>\nabla f</tex> является [[Липшицева непрерывность|липшиц-непрерывным]] с константой <tex>L > 0</tex>:
:: <tex>\|\nabla f(x) - \nabla f(y)\|_2 \le L \|x - y\|_2 \quad \forall x, y \in \mathbb{R}^d;</tex>
* <tex>g: \mathbb{R}^d \to \mathbb{R} \cup \{+\infty\}</tex> — [[Собственная функция (выпуклый анализ)|собственная]] [[Замкнутая функция|замкнутая]] выпуклая функция, которая может быть недифференцируемой.

Классический [[Градиентный спуск]] неприменим к данной задаче ввиду отсутствия <tex>\nabla g(x)</tex> во всех точках области определения. Прямой переход к [[Субградиентный метод|субградиентному спуску]] приводит к деградации скорости сходимости до <tex>\mathcal{O}(1/\sqrt{k})</tex>. Проксимальный градиентный спуск позволяет обойти это ограничение, обрабатывая гладкую часть явным шагом по градиенту, а негладкую — неявным шагом через проксимальный оператор, что позволяет сохранить асимптотику сходимости <tex>\mathcal{O}(1/k)</tex>.

== Проксимальный оператор ==

Для выпуклой функции <tex>g</tex> и параметра масштаба <tex>\lambda > 0</tex> '''проксимальным оператором''' <tex>\operatorname{prox}_{\lambda g}: \mathbb{R}^d \to \mathbb{R}^d</tex> называется отображение<ref>Moreau, J. J. Proximité et dualité dans un espace hilbertien // Bulletin de la Société Mathématique de France. — 1965. — Т. 93. — С. 273–299.</ref>:
:: <tex>\operatorname{prox}_{\lambda g}(v) = \arg\min_{x \in \mathbb{R}^d} \left( g(x) + \frac{1}{2\lambda} \|x - v\|_2^2 \right).</tex>

=== Геометрический смысл ===
Оператор ищет компромисс между минимизацией значения <tex>g(x)</tex> и близостью к аргументу <tex>v</tex> в смысле евклидовой метрики. При <tex>\lambda \to 0</tex> оператор вырождается в тождественное преобразование <tex>\operatorname{prox}_{0 g}(v) = v</tex>, а при <tex>\lambda \to \infty</tex> возвращает точку безусловного минимума функции <tex>g</tex>. В частном случае, когда <tex>g(x) = \mathbb{I}_C(x)</tex> (индикаторная функция выпуклого множества <tex>C</tex>), проксимальный оператор тождественно равен [[Оператор проектирования|оператору евклидовой проекции]] на множество <tex>C</tex>.

=== Связь с теоремой Моро ===
Фундаментальное свойство проксимального оператора задается через [[Огибающая Моро|огибающую Моро]] (регуляризацию Иосиды функции <tex>g</tex>):
:: <tex>M_{\lambda g}(v) = \inf_{x \in \mathbb{R}^d} \left( g(x) + \frac{1}{2\lambda} \|x - v\|_2^2 \right).</tex>
Согласно '''теореме Моро''', функция <tex>M_{\lambda g}</tex> является непрерывно дифференцируемой (даже если <tex>g</tex> разрывна), а её градиент вычисляется аналитически:
:: <tex>\nabla M_{\lambda g}(v) = \frac{1}{\lambda} \left( v - \operatorname{prox}_{\lambda g}(v) \right).</tex>
Следствием данного тождества является тот факт, что шаг проксимального градиентного спуска эквивалентен шагу стандартного градиентного спуска, применённому к гладкой аппроксимации Моро.

== Вычисление проксимальных операторов ==

Практическая ценность метода определяется наличием замкнутой аналитической формы для <tex>\operatorname{prox}_{\lambda g}</tex>. Классическим примером является <tex>L_1</tex>-регуляризатор задачи [[Lasso-регрессия|LASSO]]: <tex>g(x) = \|x\|_1 = \sum_{i=1}^d |x_i|</tex>.

=== Аналитический вывод для L1-нормы ===
Поскольку целевая функция сепарабельна по координатам вектора <tex>x</tex>, многомерная задача оптимизации распадается на <tex>d</tex> независимых скалярных задач:
:: <tex>[\operatorname{prox}_{\lambda \|\cdot\|_1}(v)]_i = \arg\min_{x_i \in \mathbb{R}} \left( |x_i| + \frac{1}{2\lambda} (x_i - v_i)^2 \right).</tex>

Обозначим минимизируемую функцию одной переменной через <tex>\psi(x_i)</tex>. Необходимым и достаточным условием глобального минимума выпуклой недифференцируемой функции является принадлежность нуля её [[Субдифференциал|субдифференциалу]]:
:: <tex>0 \in \partial \psi(x_i)</tex> ↔ <tex> 0 \in \partial |x_i| + \frac{1}{\lambda}(x_i - v_i) </tex> ↔ <tex>v_i - x_i \in \lambda \partial |x_i|.</tex>

Субдифференциал функции модуля <tex>\partial |x_i|</tex> имеет вид:
:: <tex>\partial |x_i| = \begin{cases} \{1\}, & x_i > 0 \\ [-1, 1], & x_i = 0 \\ \{-1\}, & x_i < 0 \end{cases}</tex>

Рассмотрим три возможных локализации оптимальной точки <tex>x_i^*</tex>:
# '''Случай <tex>x_i^* > 0</tex>:''' Субдифференциал равен <tex>1</tex>. Условие оптимума: <tex>v_i - x_i^* = \lambda </tex> → <tex> x_i^* = v_i - \lambda</tex>. Данное допущение непротиворечиво тогда и только тогда, когда <tex>v_i > \lambda</tex>.
# '''Случай <tex>x_i^* < 0</tex>:''' Субдифференциал равен <tex>-1</tex>. Условие оптимума: <tex>v_i - x_i^* = -\lambda </tex> → <tex> x_i^* = v_i + \lambda</tex>. Непротиворечиво при <tex>v_i < -\lambda</tex>.
# '''Случай <tex>x_i^* = 0</tex>:''' Субдифференциал представляет собой отрезок <tex>[-1, 1]</tex>. Условие оптимума: <tex>v_i \in \lambda [-1, 1] </tex> ↔ <tex> |v_i| \le \lambda</tex>.

Синтез трех случаев дает '''оператор мягкого порогового отсечения'''<ref>Parikh, N., Boyd, S. Proximal Algorithms // Foundations and Trends in Optimization. — 2014. — Т. 1, № 3. — С. 127–239.</ref>:
:: <tex>\mathcal{S}_\lambda(v_i) = \operatorname{sign}(v_i) \max(0, |v_i| - \lambda).</tex>
Оператор осуществляет непрерывное стягивание компонент вектора к нулю; координаты, по модулю не превосходящие порог <tex>\lambda</tex>, строго обнуляются, генерируя разреженное решение.

== Базовый алгоритм ISTA ==

Алгоритм '''ISTA''' представляет собой каноническую реализацию метода. Итерационный процесс строится на принципе [[Мажоризация-минимизация|мажоризации-минимизации]] (MM).

В точке <tex>x_k</tex> гладкая компонента <tex>f(x)</tex> аппроксимируется сверху строго выпуклой квадратичной суррогатной функцией (согласно лемме о липшицевом градиенте):
:: <tex>f(x) \le f(x_k) + \langle \nabla f(x_k), x - x_k \rangle + \frac{L}{2} \|x - x_k\|_2^2.</tex>

Минимизация результирующей верхней оценки всей функции <tex>F(x)</tex> на шаге <tex>k</tex> записывается как:
:: <tex>x_{k+1} = \arg\min_x \left( f(x_k) + \langle \nabla f(x_k), x - x_k \rangle + \frac{L}{2} \|x - x_k\|_2^2 + g(x) \right).</tex>

Выделение полного квадрата по переменной <tex>x</tex> сводит задачу к форме проксимального оператора:
:: <tex>x_{k+1} = \arg\min_x \left( g(x) + \frac{L}{2} \left\| x - \left( x_k - \frac{1}{L}\nabla f(x_k) \right) \right\|_2^2 \right) \equiv \operatorname{prox}_{\frac{1}{L}g} \left( x_k - \frac{1}{L}\nabla f(x_k) \right).</tex>

=== Шаги алгоритма ===
Для начального вектора <tex>x_0 \in \mathbb{R}^d</tex> и величины шага <tex>\gamma \in (0, 1/L]</tex> алгоритм повторяет:
# Явный шаг градиентного спуска:
:: <tex>y_k = x_k - \gamma \nabla f(x_k).</tex>
# Неявный проксимальный шаг:
:: <tex>x_{k+1} = \operatorname{prox}_{\gamma g}(y_k).</tex>

=== Условия сходимости ===
Для выпуклых функций <tex>f, g</tex> при шаге <tex>\gamma \le 1/L</tex> метод ISTA гарантирует сублинейную [[Скорость сходимости|скорость сходимости]] по целевому функционалу:
:: <tex>F(x_k) - F(x^*) \le \frac{L \|x_0 - x^*\|_2^2}{2k}.</tex>
Если <tex>f</tex> является [[Сильно выпуклая функция|сильно выпуклой]] с константой <tex>\mu > 0</tex>, метод сходится с линейной скоростью: <tex>F(x_k) - F(x^*) \le \left(1 - \frac{\mu}{L}\right)^k (F(x_0) - F(x^*))</tex>.

== Ускоренные и стохастические методы ==

=== Ускорение Нестерова (FISTA) ===
Алгоритм '''FISTA'''<ref>Beck, A., Teboulle, M. A Fast Iterative Shrinkage-Thresholding Algorithm for Linear Inverse Problems // SIAM Journal on Imaging Sciences. — 2009. — Т. 2, № 1. — С. 183–202.</ref> модифицирует ISTA путем внедрения импульса Нестерова. Проксимальный шаг осуществляется не из текущей точки <tex>x_k</tex>, а из экстраполированной точки <tex>y_{k+1}</tex>:
* Инициализация: <tex>x_0 = y_1 \in \mathbb{R}^d, \; t_1 = 1</tex>.
* На каждой итерации <tex>k \ge 1</tex>:
# <tex>x_k = \operatorname{prox}_{\gamma g}\left( y_k - \gamma \nabla f(y_k) \right);</tex>
# <tex>t_{k+1} = \frac{1 + \sqrt{1 + 4t_k^2}}{2};</tex>
# <tex>y_{k+1} = x_k + \frac{t_k - 1}{t_{k+1}} (x_k - x_{k-1}).</tex>

FISTA достигает асимптотики сходимости <tex>\mathcal{O}(1/k^2)</tex>, что является [[Оптимальный метод оптимизации|нижней теоретической границей]] сложности для методов первого порядка на классе гладких выпуклых задач.

=== Проксимальные стохастические методы с редукцией дисперсии ===
В задачах обучения на больших данных функция <tex>f(x)</tex> имеет структуру эмпирического риска: <tex>f(x) = \frac{1}{n}\sum_{i=1}^n f_i(x)</tex>. Применение наивного проксимального [[Стохастический градиентный спуск|стохастического градиентного спуска]] (Prox-SGD) приводит к потере линейной сходимости на сильно выпуклых задачах из-за ненулевой асимптотической дисперсии стохастического градиента. Преодоление проблемы требует техник Variance Reduction.

==== Prox-SVRG ====
Метод '''Prox-SVRG''' <ref>Xiao, L., Zhang, T. A Proximal Stochastic Gradient Method with Progressive Variance Reduction // SIAM Journal on Optimization. — 2014. — Т. 24, № 4. — С. 2057–2075.</ref> оперирует вложенными циклами (эпохами). На внешнем цикле в точке <tex>\tilde{x}</tex> вычисляется и фиксируется точный вектор градиента <tex>\nabla f(\tilde{x})</tex>. На внутреннем цикле для случайного индекса <tex>i_k</tex> строится модифицированная оценка градиента:
:: <tex>v_k = \nabla f_{i_k}(x_k) - \nabla f_{i_k}(\tilde{x}) + \nabla f(\tilde{x}).</tex>
Шаг обновления: <tex>x_{k+1} = \operatorname{prox}_{\gamma g}(x_k - \gamma v_k)</tex>. По мере приближения точек <tex>x_k, \tilde{x}</tex> к оптимуму <tex>x^*</tex>, дисперсия вектора <tex>v_k</tex> автоматически асимптотически стремится к нулю.

==== Prox-SAGA ====
Метод '''Prox-SAGA'''<ref>Defazio, A., Bach, F., Lacoste-Julien, S. SAGA: A Fast Incremental Gradient Method With Support for Non-Strongly Convex Composite Objectives // Advances in Neural Information Processing Systems (NIPS). — 2014. — Т. 27.</ref> заменяет расчет полных градиентов хранением в памяти таблицы последних вычисленных градиентов для каждого из <tex>n</tex> объектов: <tex>\{g_i\}_{i=1}^n</tex>. На шаге <tex>k</tex> случайно выбирается индекс <tex>j</tex>, вычисляется <tex>\nabla f_j(x_k)</tex>, and вектор направления формируется как:
:: <tex>v_k = \nabla f_j(x_k) - g_j + \frac{1}{n}\sum_{i=1}^n g_i.</tex>
После шага пересчета <tex>x_{k+1} = \operatorname{prox}_{\gamma g}(x_k - \gamma v_k)</tex> запись в таблице обновляется: <tex>g_j \leftarrow \nabla f_j(x_k)</tex>.

==== Prox-SARAH ====
Метод '''Prox-SARAH''' <ref>Pham, N. T., Nguyen, L. M., van Dijk, M., et al. ProxSARAH: An Efficient Algorithmic Framework for Stochastic Composite Nonconvex Optimization // Journal of Machine Learning Research. — 2020. — Т. 21, № 110. — С. 1–48.</ref> использует смещенную рекурсивную оценку. Вектор направления пересчитывается по формуле:
:: <tex>v_k = \nabla f_{i_k}(x_k) - \nabla f_{i_k}(x_{k-1}) + v_{k-1.</tex>
Отказ от требования несмещенности (<tex>\mathbb{E}[v_k] \ne \nabla f(x_k)</tex>) позволяет получить более стабильную траекторию убывания нормы градиента. Это делает Prox-SARAH предпочтительным выбором для ''невыпуклых'' задач композитной оптимизации (например, обучение глубоких нейронных сетей с <tex>L_0</tex>- или <tex>L_1</tex>-регуляризацией).

На сильно выпуклых задачах (таких как LASSO) алгоритмы Prox-SVRG и Prox-SAGA достигают линейной скорости сходимости с общей оракульной сложностью <tex>\mathcal{O}\left( (n + L/\mu) \log(1/\epsilon) \right)</tex>, что позволяет свести итоговую вычислительную стоимость к одному проходу по датасету.

== Литература ==
<references/>

[[Категория:Методы оптимизации]]
[[Категория:Энциклопедия анализа данных]]
[[Категория:Выпуклый анализ]]
[[Категория:Численные методы]]

Отбор признаков

2026-06-23T12:57:45Z

Описание изменений:

{{well|Статья написана с использованием LLM '''Gemini(PRO)''' и проверена участником ~~Danis Sabirov~~}}

== Отбор признаков (Feature Selection) ==

'''Отбор признаков''' (англ. ''feature selection'') — процесс выбора оптимального подмножества релевантных признаков (предикторов, переменных) для построения модели машинного обучения. Отбор признаков преследует несколько фундаментальных целей: преодоление «проклятия размерности» (curse of dimensionality), устранение мультиколлинеарности, минимизация времени обучения и радикальное повышение интерпретируемости результирующих моделей при сохранении или увеличении их обобщающей способности.

=== 1. Математическая постановка задачи ===
Пусть задана обучающая выборка, представленная в виде матрицы объекты-признаки <tex>X \in \mathbf{R}^{N \times D}</tex>, где <tex>N</tex> — количество независимых объектов (наблюдений), а <tex>D</tex> — исходная размерность признакового пространства. Каждому объекту (строке матрицы) <tex>x_i \in \mathbf{R}^D</tex> поставлен в соответствие истинный ответ (целевая переменная) <tex>y_i \in \mathbf{Y}</tex>. Для задач регрессии <tex>\mathbf{Y} = \mathbf{R}</tex>, для задач многоклассовой классификации <tex>\mathbf{Y} = {1, \dots, K}</tex>.
[[Изображение: tecture.png]]
Определим полное множество индексов исходных признаков как:
:<tex>\Omega = {1, \dots, D}, \quad |\Omega| = D</tex>

Задачей отбора признаков является нахождение оптимального подмножества индексов <tex>S \subset \Omega</tex> фиксированной или переменной мощности <tex>|S| = d</tex> (где <tex>d \ll D</tex>), которое минимизирует функционал эмпирического риска выбранного базового алгоритма обучения <tex>A</tex> на отложенной выборке:
:<tex>S^* = \arg\min_{S \subset \Omega} \frac{1}{M} \sum_{m=1}^{M} \mathcal{L}\left(A(X_{S}^{train})_{x_m}, y_m\right)</tex>
:: где <tex>X_S</tex> — усеченная матрица объектов размерности <tex>N \times d</tex>, содержащая только столбцы с индексами из множества <tex>S</tex>, <tex>\mathcal{L}</tex> — функция потерь алгоритма, а <tex>M</tex> — размер валидационной выборки.

Полный перебор всех возможных комбинаций требует оценки <tex>2^D</tex> вариантов, что представляет собой NP-трудную задачу. В силу этого на практике применяются эвристические подходы, разделяемые на три класса: фильтрация (filters), обертывание (wrappers) и встроенные методы (embedded).

=== 2. Методы фильтрации (Filter Methods) ===
Методы фильтрации оценивают статистические свойства признаков изолированно от структуры и параметров финальной прогностической модели. Из-за вычислительной простоты они используются в качестве методов быстрой предварительной фильтрации (screener).

'''Порог дисперсии (Variance Threshold):''' Устраняет константные и квазиконстантные признаки, не несущие дискриминативной информации. Признак <tex>j</tex> удаляется, если его выборочная дисперсия ниже заданного порога <tex>\tau</tex>:
:<tex>\sigma^2_j = \frac{1}{N}\sum_{i=1}^{N} (x_{ij} - \mu_j)^2 < \tau, \quad \mu_j = \frac{1}{N}\sum_{i=1}^{N} x_{ij}</tex>

'''Линейный коэффициент корреляции Пирсона:''' Измеряет степень линейной связи между непрерывным признаком <tex>x^{(j)}</tex> и непрерывной целевой переменной <tex>y</tex>:
:<tex>r_j = \frac{\sum_{i=1}^{N} (x_{ij} - \mu_j)(y_i - \mu_y)}{\sqrt{\sum_{i=1}^{N} (x_{ij} - \mu_j)^2 \sum_{i=1}^{N} (y_i - \mu_y)^2}}</tex>

'''Критерий Хи-квадрат (<tex>\chi^2</tex>-тест):''' Применяется для качественных (категориальных) признаков. Проверяет гипотезу о независимости признака <tex>j</tex> и целевой переменной. Статистика вычисляется на основе таблицы сопряженности:
:<tex>\chi^2_j = \sum_{u=1}^{U} \sum_{v=1}^{V} \frac{(O_{uv} - E_{uv})^2}{E_{uv}}</tex>
:: где <tex>O_{uv}</tex> — наблюдаемое число объектов, сочетающих <tex>u</tex>-е значение признака и <tex>v</tex>-й класс, а <tex>E_{uv}</tex> — ожидаемое число объектов при гипотезе о независимости.

'''Взаимная информация (Mutual Information):''' Базируется на энтропии Шеннона и улавливает произвольные нелинейные зависимости. Для дискретных случайных величин формула имеет вид:
:<tex>I(X^{(j)}; Y) = \sum_{x \in X^{(j)}} \sum_{y \in \mathbf{Y}} p(x, y) \ln \frac{p(x, y)}{p(x)p(y)}</tex>
:: где <tex>p(x, y)</tex> — совместное распределение вероятностей, а <tex>p(x)</tex> и <tex>p(y)</tex> — маргинальные распределения.
[[Изображение : L1L2.png]]
=== 3. Методы обертывания (Wrapper Methods) ===
Методы обертывания используют целевой алгоритм машинного обучения в качестве функции оценки (score) для проверяемого подмножества признаков. Впервые подробно исследованы в работе Kohavi, John (1997).

'''Прямой последовательный отбор (Forward Stepwise Selection):''' Итерационный процесс, стартующий с пустого множества <tex>S_0 = \emptyset</tex>. На шаге <tex>t</tex> алгоритм жадно добавляет один признак, максимизирующий локальное качество:
:<tex>j_t = \arg\max_{j \in \Omega \setminus S_{t-1}} \text{Score}\left(A(X_{S_{t-1} \cup {j}})\right), \quad S_t = S_{t-1} \cup {j_t}</tex>

'''Обратное последовательное исключение (Backward Stepwise Elimination):''' Процесс, обратный прямому отбору. Стартует с полного набора признаков <tex>S_0 = \Omega</tex>, на каждом шаге отбрасывается переменная, удаление которой наносит минимальный ущерб точности модели.

'''Рекурсивное исключение признаков (Recursive Feature Elimination, RFE):''' Алгоритм (Guyon et al., 2002), обучающий модель на полном множестве, ранжирующий признаки по величине квадрата весовых коэффициентов линейного классификатора <tex>c_j = w_j^2</tex> (или значимости в деревьях) и последовательно отсекающий наименее важные элементы.

=== 4. Встроенные методы (Embedded Methods) ===
Встроенные методы осуществляют селекцию признаков непосредственно в ходе оптимизации внутренних параметров модели (процессы обучения и отбора математически неразделимы).

'''L1-регуляризация (LASSO):''' Метод аппроксимации разреженных решений (Tibshirani, 1996). За счет сингулярности (острых углов) ограничения L1-нормы в области нулевых значений, оптимизатор принудительно зануляет веса избыточных предикторов:
:<tex>Q_{LASSO}(w) = \frac{1}{2N} \sum_{i=1}^{N} \left(y_i - \sum_{j=1}^{D} w_j x_{ij}\right)^2 + \lambda \sum_{j=1}^{D} |w_j| \to \min_{w}</tex>
:: где <tex>\lambda</tex> — управляющий гиперпараметр. Признак <tex>j</tex> считается исключенным, если <tex>w_j = 0</tex>.

'''Elastic Net Регуляризация:''' Комбинирует штрафы L1 и L2 (Zou, Hastie, 2005) для преодоления ограничений LASSO при работе с коррелированными группами признаков:
:<tex>Q_{EN}(w) = \frac{1}{2N} \sum_{i=1}^{N} \left(y_i - \sum_{j=1}^{D} w_j x_{ij}\right)^2 + \lambda_1 \sum_{j=1}^{D} |w_j| + \lambda_2 \sum_{j=1}^{D} w_j^2 \to \min_{w}</tex>

'''Уменьшение примеси в ансамблях деревьев (Mean Decrease Impurity, MDI):''' Метод оценки важности признаков в алгоритме Random Forest (Breiman, 2001). Значимость признака <tex>j</tex> вычисляется как взвешенная сумма улучшений критерия информативности (например, Джини) по всем узлам <tex>t</tex>, где было произведено разбиение по данному признаку:
:<tex>\text{MDI}(j) = \frac{1}{|T|} \sum_{t \in T} w(t) \left[ I(t) - \frac{N_{tL}}{N_t}I(t_L) - \frac{N_{tR}}{N_t}I(t_R) \right]</tex>
:: где <tex>I(t)</tex> — значение неопределенности в узле, <tex>w(t)</tex> — доля объектов, прошедших через узел, а <tex>t_L</tex> и <tex>t_R</tex> — левое и правое поддеревья соответственно.

=== 5. Функции потерь и информационные критерии оценки ===
Для оценки оптимальности подмножеств признаков в линейных и классических вероятностных моделях используют критерии, накладывающие явный штраф за избыточную параметризацию (мощность подмножества <tex>d</tex>):

'''Информационный критерий Акаике (AIC):'''
:<tex>\text{AIC} = 2d - 2\ln(L_{max})</tex>
:: где <tex>L_{max}</tex> — максимизированное значение функции правдоподобия (Likelihood function) модели.

'''Байесовский информационный критерий Шварца (BIC):'''
:<tex>\text{BIC} = d\ln(N) - 2\ln(L_{max})</tex>
:: Штрафует за размерность жестче, чем AIC, при объемах выборки <tex>\ln(N) > 2</tex>.

'''Скорректированный коэффициент детерминации (<tex>R^2_{adj}</tex>):''' Используется в задачах регрессии:
:<tex>R^2_{adj} = 1 - (1 - R^2)\frac{N - 1}{N - d - 1}</tex>

=== 6. Метрики качества работы методов отбора ===
Интегральная оценка алгоритмов селекции оперирует не только ошибкой аппроксимации, но и показателями стабильности:

'''Стабильность отбора (Индекс Жакара):''' Оценивает инвариантность метода к малым возмущениям обучающей выборки. Для двух подмножеств <tex>S_1</tex> и <tex>S_2</tex>, полученных на разных подвыборках:
:<tex>J(S_1, S_2) = \frac{|S_1 \cap S_2|}{|S_1 \cup S_2|}</tex>

'''Скорректированный индекс Кунчевой (Kuncheva's Stability Index):''' Учитывает вероятность случайного совпадения признаков в высокоразмерных пространствах:
:<tex>I_K(S_1, S_2) = \frac{r \cdot D - d^2}{d \cdot (D - d)}</tex>
:: где <tex>r = |S_1 \cap S_2|</tex> — размер пересечения подмножеств, а <tex>d</tex> — их фиксированная мощность (<tex>|S_1|=|S_2|=d</tex>). Диапазон значений: <tex>[-1, 1]</tex>.

=== 7. Практические рекомендации и типичные ошибки ===

'''Утечка данных (Data Leakage) при кросс-валидации:''' КРИТИЧЕСКАЯ И САМАЯ РАСПРОСТРАНЕННАЯ ОШИБКА. Расчет любых статистик фильтрации (например, взаимной информации или корреляций) должен производиться строго '''внутри тренировочных фолдов'''. Если выполнить отбор признаков на всей матрице <tex>X</tex> до разбиения на фолды кросс-валидации, информация из валидационных подвыборок попадет в модель, что приведет к сильному оптимистическому смещению оценок качества (ошибка генерализации будет занижена).

'''Чувствительность к масштабу данных:''' Большинство регуляризаторов (LASSO, Elastic Net) и оберток на базе линейных моделей критичны к масштабу. Перед началом процедуры отбора матрица признаков <tex>X</tex> подлежит обязательной стандартизации:
:<tex>\tilde{x}{ij} = \frac{x{ij} - \mu_j}{\sigma_j}</tex>

'''Проблема группировки при мультиколлинеарности:''' Если в выборке присутствует группа строго коррелированных признаков (например, <tex>r > 0.95</tex>), классический метод LASSO случайным образом выберет один из них, занулив остальные. Это делает интерпретацию модели нестабильной. Для сохранения всей группы информативных связанных переменных необходимо отдавать предпочтение регуляризатору Elastic Net.

== Литература ==

''Breiman L.'' Random forests // Machine learning. — 2001. — Vol. 45. — P. 5-32.

''Guyon I., Weston J., Barnhill S., Vapnik V.'' Gene selection for cancer classification using support vector machines // Machine learning. — 2002. — Vol. 46. — P. 389-422.

''Kohavi R., John G. H.'' Wrappers for feature subset selection // Artificial intelligence. — 1997. — Vol. 97, no. 1-2. — P. 273-324.

''Tibshirani R.'' Regression shrinkage and selection via the lasso // Journal of the Royal Statistical Society: Series B (Methodological). — 1996. — Vol. 58, no. 1. — P. 267-288.

''Zou H., Hastie T.'' Regularization and variable selection via the elastic net // Journal of the Royal Statistical Society Series B: Statistical Methodology. — 2005. — Vol. 67, no. 2. — P. 301-320.

Elastic Net

2026-06-23T12:29:55Z

Описание изменений:

{{well|Статья написана с использованием LLM '''Gemini 3.1 Pro''' и проверена участником [[Участник:Renal Gazizullin|Renal Gazizullin]] 15:40, 23 июня 2026 (MSD)}}
== Введение и формальная математическая постановка задачи ==
'''Регуляризация Elastic Net''' (''эластичная сеть'') — гибридный метод [[Регуляризация (математика)|регуляризации]] моделей машинного обучения, объединяющий штрафы <tex>L_1</tex> ([[Lasso-регрессия|LASSO]]) и <tex>L_2</tex> ([[Гребневая регрессия|гребневая регрессия]]). Метод был предложен для преодоления фундаментальных ограничений LASSO: невозможности отобрать больше признаков, чем количество наблюдений (<tex>p > n</tex>), и нестабильного поведения при наличии ярко выраженной [[Мультиколлинеарность|мультиколлинеарности]].

В классической линейной регрессии задача оптимизации Elastic Net формулируется следующим образом. Пусть <tex>X \in \mathbb{R}^{n \times p}</tex> — матрица плана (объекты-признаки), а <tex>y \in \mathbb{R}^n</tex> — вектор целевой переменной. Оценкой вектора весов <tex>\hat{\beta}</tex> является решение оптимизационной задачи:
:: <tex>\hat{\beta} = \arg\min_{\beta \in \mathbb{R}^p} \left( \frac{1}{2n} ||X\beta - y||_2^2 + \lambda_1 ||\beta||_1 + \lambda_2 ||\beta||_2^2 \right)</tex>

Часто используется альтернативная параметризация через гиперпараметры <tex>\alpha \in [0, 1]</tex> и <tex>\lambda > 0</tex>, отражающая выпуклую комбинацию штрафов:
:: <tex>\min_{\beta} \left( \frac{1}{2n} ||X\beta - y||_2^2 + \lambda \left( \alpha ||\beta||_1 + \frac{1-\alpha}{2} ||\beta||_2^2 \right) \right)</tex>

== Геометрическая интерпретация ==
Геометрически штрафная функция эластичной сети представляет собой компромисс между ромбом (изолиния <tex>L_1</tex>) и окружностью (изолиния <tex>L_2</tex>).

Функционал штрафа <tex>P(\beta) = (1-\alpha)||\beta||_1 + \alpha||\beta||_2^2</tex> строго выпуклый при <tex>\alpha > 0</tex>. Строгая выпуклость гарантирует единственность решения оптимизационной задачи в случае вырожденной матрицы <tex>X^T X</tex>. При этом контур штрафа сохраняет сингулярности (изломы) на осях координат, что критически важно для обеспечения свойства разреженности (зануления нерелевантных весов), присущего LASSO, но недостижимого в чистой гребневой регрессии.

== Эффект группировки признаков (Grouping Effect) ==
Наиболее важным аналитическим свойством Elastic Net является способность к групповому отбору сильно коррелированных переменных. Если группа признаков имеет высокую попарную корреляцию, LASSO имеет тенденцию произвольно выбирать один признак из группы, обнуляя остальные. Эластичная сеть назначает таким признакам схожие (или идентичные) весовые коэффициенты.

'''Теорема (Зоу, Хасти, 2005)'''<ref>Zou H., Hastie T. Regularization and variable selection via the elastic net // Journal of the Royal Statistical Society: Series B (Statistical Methodology). 2005. Vol. 67. P. 301–320.</ref>. Пусть предикторы стандартизированы. Для любых двух признаков <tex>x_i</tex> и <tex>x_j</tex> с выборочной корреляцией <tex>\rho = x_i^T x_j</tex>, разность их оптимальных коэффициентов в модели Elastic Net ограничена:
:: <tex>|\hat{\beta}_i - \hat{\beta}_j| \le \frac{||y||_2}{\lambda_2} \sqrt{2(1-\rho)}</tex>

Из неравенства прямо следует: если корреляция <tex>\rho \to 1</tex>, то <tex>\hat{\beta}_i \approx \hat{\beta}_j</tex>. Штраф <tex>\lambda_2</tex> в знаменателе подтверждает, что именно <tex>L_2</tex>-компонента отвечает за стягивание коэффициентов коррелированных признаков друг к другу.

=== Наивный Elastic Net против масштабированного ===
«Наивный» вариант эластичной сети (прямое решение задачи выше) подвергает коэффициенты двойному сжатию (double shrinkage), что вносит избыточное смещение в оценку и ухудшает предиктивную способность модели. Авторы метода доказали необходимость применения поправочного множителя. Финальная оценка вычисляется как масштабирование наивной оценки:
:: <tex>\hat{\beta}_{EN} = (1 + \lambda_2) \hat{\beta}_{naive}</tex>
Это преобразование сохраняет эффект отбора признаков и группировки, компенсируя излишнее стягивание к нулю, вызванное одновременным применением двух регуляризаторов.

== Байесовская интерпретация ==
С точки зрения [[Байесовский вывод|байесовской статистики]], добавление штрафа эквивалентно введению априорного распределения на веса <tex>\beta</tex>.
* <tex>L_1</tex>-регуляризация соответствует априорному [[Распределение Лапласа|распределению Лапласа]].
* <tex>L_2</tex>-регуляризация соответствует априорному [[Нормальное распределение|распределению Гаусса]].

Априорное распределение эластичной сети пропорционально произведению этих плотностей:
:: <tex>p(\beta) \propto \exp\left(-\lambda_1 ||\beta||_1 - \lambda_2 ||\beta||_2^2\right)</tex>
Это ортонормальное априорное распределение (orthant-normal prior) обладает тяжелыми хвостами у нуля (как у Лапласа), но гауссовским затуханием на бесконечности, что обеспечивает баланс между разреженностью и стабильностью дисперсии апостериорных оценок.

== Вычислительные аспекты и методы оптимизации ==
На практике для настройки Elastic Net применяется метод покоординатного спуска ([[Координатный спуск]]), реализованный в библиотеке `glmnet`. Однако при работе со сверхбольшими датасетами (<tex>n \gg 10^5</tex>) на первый план выходят проксимальные стохастические методы<ref>Xiao L., Zhang T. A Proximal Stochastic Gradient Method with Progressive Variance Reduction // SIAM Journal on Optimization. 2014. Vol. 24. P. 2057–2075.</ref>.

Эластичная сеть формулируется как минимизация композитного функционала <tex>F(\beta) = f(\beta) + h(\beta)</tex>, где:
* <tex>f(\beta) = \frac{1}{2n} ||X\beta - y||_2^2 + \lambda_2 ||\beta||_2^2</tex> — гладкая эмпирическая компонента.
* <tex>h(\beta) = \lambda_1 ||\beta||_1</tex> — негладкий штраф.

Проксимальный оператор для <tex>h(\beta)</tex> имеет аналитическое решение в виде оператора мягкого порогового отсечения (soft-thresholding):
:: <tex>\text{prox}_{\eta h}(\beta)_j = \text{sign}(\beta_j) \max(|\beta_j| - \eta \lambda_1, 0)</tex>

=== Эксплуатация сильной выпуклости ===
Фундаментальное вычислительное преимущество Elastic Net перед LASSO — добавление <tex>\lambda_2 ||\beta||_2^2</tex> обеспечивает гладкой части <tex>f(\beta)</tex> глобальную '''сильную выпуклость''' (strong convexity) с константой <tex>\mu = 2\lambda_2</tex>.

Обычный LASSO часто приводит к плохо обусловленным задачам, где стохастический градиентный спуск сходится сублинейно. Сильная выпуклость Elastic Net кардинально меняет картину для современных алгоритмов с редукцией дисперсии (Variance Reduction):
# '''SVRG''' (Stochastic Variance Reduced Gradient)
# '''SAGA'''
# '''SARAH''' (StochAstic Recursive grAdient algoritHm)

Благодаря строгой оценке <tex>\mu > 0</tex>, проксимальные версии этих алгоритмов (Prox-SVRG, Prox-SAGA) достигают '''линейной скорости сходимости'''. В частности, для достижения точности <tex>\epsilon</tex> требуется число итераций порядка:
:: <tex>\mathcal{O}\left( \left(n + \frac{L}{\lambda_2}\right) \log\left(\frac{1}{\epsilon}\right) \right)</tex>
где <tex>L</tex> — константа Липшица градиента <tex>\nabla f</tex>. Увеличение <tex>\lambda_2</tex> напрямую улучшает число обусловленности <tex>\kappa = L/\lambda_2</tex>, делая оптимизацию экспоненциально быстрее, чем в случае чистого LASSO, где теоретические гарантии требуют выполнения ограничительных условий изометрии (Restricted Eigenvalue Condition)<ref>Defazio A., Bach F., Lacoste-Julien S. SAGA: A Fast Incremental Gradient Method With Support for Non-Strongly Convex Composite Objectives // NIPS. 2014.</ref>.

== Литература ==
<references/>

[[Категория:Регрессионный анализ]]
[[Категория:Энциклопедия анализа данных]]
[[Категория:Математическая оптимизация]]
[[Категория:Методы регуляризации]]

LASSO-регрессия

2026-06-23T12:06:15Z

Описание изменений:

{{well|Статья написана с использованием LLM '''Gemini 3.1 Pro''' и проверена участником [[Участник:Renal Gazizullin|Renal Gazizullin]] 15:40, 23 июня 2026 (MSD)}}
'''LASSO-регрессия''' (аббр. от англ. ''Least Absolute Shrinkage and Selection Operator'') — метод оценки параметров [[Линейная регрессия|линейной регрессии]], при котором функционал качества дополняется штрафом, пропорциональным <tex>L_1</tex>-норме вектора параметров. Метод предложен [[Тибширани, Роберт|Робертом Тибширани]] в 1996 году<ref>Tibshirani, R. (1996). Regression shrinkage and selection via the lasso. Journal of the Royal Statistical Society: Series B (Methodological), 58(1), 267-288.</ref> и формально решает задачи [[Регуляризация (математика)|регуляризации]] и автоматического [[Отбор признаков|отбора признаков]].

== Формальная постановка ==
Пусть задана обучающая выборка <tex>(X, y)</tex>, где <tex>X \in \mathbb{R}^{n \times d}</tex> — матрица [[Признак (машинное обучение)|признаков]], а <tex>y \in \mathbb{R}^n</tex> — вектор ответов. Задача LASSO-регрессии сводится к минимизации эмпирического риска с <tex>L_1</tex>-регуляризатором:
:: <tex>\min_{w \in \mathbb{R}^d} \frac{1}{2n} ||Xw - y||_2^2 + \alpha ||w||_1</tex>
где <tex>w</tex> — вектор весов, <tex>\alpha \geq 0</tex> — гиперпараметр регуляризации, управляющий степенью разреженности решения.

== Свойства метода ==
=== Отбор признаков ===
Ключевая особенность LASSO — способность приравнивать к нулю веса наименее релевантных признаков при достаточно больших значениях <tex>\alpha</tex>. Метод выполняет непрерывное сжатие весов, что делает его предпочтительным инструментом для интерпретации моделей в условиях высокой размерности пространства признаков (<tex>d \gg n</tex>).

=== Геометрическая интерпретация ===
В отличие от [[Гребневая регрессия|гребневой регрессии]] (<tex>L_2</tex>-регуляризация), где линии уровня штрафа образуют гиперсферу, <tex>L_1</tex>-норма формирует гипероктаэдр (ромб в двумерном случае). Точка касания эллипсоида контуров среднеквадратичной ошибки (MSE) с границей гипероктаэдра с высокой вероятностью приходится на его вершины. Это геометрическое свойство гарантирует строго нулевые значения части компонент вектора <tex>w</tex><ref>Hastie, T., Tibshirani, R., & Wainwright, M. (2015). Statistical Learning with Sparsity: The Lasso and Generalizations. CRC Press.</ref>.

== Методы оптимизации ==
В силу недифференцируемости <tex>L_1</tex>-нормы в точке 0, классический [[Градиентный спуск|градиентный спуск]] неприменим для поиска точного решения.

=== Координатный спуск ===
Базовый алгоритм для практического применения (в частности, в библиотеке glmnet). Метод покоординатного спуска итеративно обновляет каждую компоненту веса при фиксированных остальных, используя оператор мягкого порога (soft-thresholding):
:: <tex>w_j = S_{\alpha \eta}(w_j - \eta \nabla_{w_j} L)</tex>

=== Алгоритм LARS ===
[[LARS]] (Least Angle Regression) — метод гомотопии, позволяющий точно построить кусочно-линейный путь решений LASSO для всего спектра значений <tex>\alpha</tex>. Вычислительная сложность алгоритма эквивалентна одному расчету метода наименьших квадратов.

=== Проксимальные градиентные методы ===
Для минимизации суммы дифференцируемой и недифференцируемой функций применяется алгоритм ISTA (Iterative Shrinkage-Thresholding Algorithm) и его ускоренный вариант FISTA. Обновление весов задается через проксимальный оператор:
:: <tex>w^{(k+1)} = \text{prox}_{\eta \alpha ||\cdot||_1} \left( w^{(k)} - \eta \nabla f(w^{(k)}) \right)</tex>
Проксимальный оператор <tex>L_1</tex>-нормы аналитически сводится к покомпонентному применению мягкого порога.

=== Стохастическая оптимизация с редукцией дисперсии ===
В задачах с большим объемом выборки (<tex>n \to \infty</tex>) обычный [[Стохастический градиентный спуск|SGD]] имеет сублинейную скорость сходимости из-за асимптотической неисчезающей дисперсии стохастического градиента. Современные проксимальные стохастические методы решают эту проблему, достигая линейной сходимости для сильно выпуклых задач<ref>Defazio, A., Bach, F., & Lacoste-Julien, S. (2014). SAGA: A fast incremental gradient method with support for non-strongly convex composite objectives. NIPS.</ref>:
* '''Prox-SVRG''' (Stochastic Variance Reduced Gradient): Периодически вычисляет полный градиент для центрирования стохастических оценок, строго контролируя дисперсию на внутренних итерациях.
* '''SAGA''': Адаптация алгоритма SAG без необходимости вычисления полного градиента на внешнем цикле, математически совместимая с проксимальным шагом для <tex>L_1</tex>-штрафа.
* '''SARAH''' (StochAstic Recursive grAdient algoritHm): Применяет рекурсивные оценки для формирования смещенного, но обладающего существенно меньшей дисперсией направления поиска.

== Байесовская интерпретация ==
С позиций [[Байесовский вывод|байесовской статистики]], оценка параметров LASSO эквивалентна оценке максимума апостериорной вероятности (MAP) при допущении, что шум модели имеет нормальное распределение, а априорное распределение весов <tex>w</tex> является независимым [[Распределение Лапласа|распределением Лапласа]]:
:: <tex>p(w) = \prod_{j=1}^d \frac{1}{2b} \exp\left(-\frac{|w_j|}{b}\right)</tex>
где параметр масштаба <tex>b</tex> обратно пропорционален <tex>\alpha</tex>. Характерный пик в нулю распределения Лапласа формализует априорное ожидание разреженности вектора параметров<ref>Park, T., & Casella, G. (2008). The Bayesian Lasso. Journal of the American Statistical Association, 103(482), 681-686.</ref>.

== Связанные методы ==
* [[Elastic Net]]: Выпуклая линейная комбинация <tex>L_1</tex> и <tex>L_2</tex> регуляризаторов. Компенсирует нестабильность LASSO при наличии групп сильно коррелирующих между собой признаков, отбирая их совместно.
* [[Adaptive LASSO]]: Метод, вводящий индивидуальные веса штрафа для каждой компоненты вектора (штраф пропорционален цене обычного МНК). Обеспечивает свойство оракула: асимптотическую несмещенность и консистентность отбора признаков.
* [[Групповое LASSO]] (Group LASSO): Использует блочную норму (смешанную <tex>L_{2,1}</tex>-норму) для одновременного зануления заранее заданных логических групп признаков.

== Литература ==
<references/>

[[Категория:Регрессионный анализ]]
[[Категория:Энциклопедия анализа данных]]
[[Категория:Методы оптимизации]]
[[Категория:Регуляризация]]

Философия. Введение в ИИ (курс лекций, К.В.Воронцов)/Задание 2

2026-06-23T10:05:42Z

Описание изменений: /* Формальные требования */

Задание творческое — написать эссе об одном из сценариев развития Искусственного Интеллекта, акцентируясь на вопросах влияния технологий на человека и общество. Горизонт прогнозирования — ваша жизнь. То, что вы успеете увидеть, и проверить свои предположения.

* Жанр может быть любой: публицистическая статья, философская статья, фантастический рассказ, описание дерева сценариев и т.д.

* Можете присоединиться ко вселенной Аватаристики, рассказанной на лекции 4Б. Но это не обязательно.

* Не пытайтесь прогнозировать или предугадывать. Конструируйте то будущее, которое вы хотите увидеть для себя и своих детей. Это требование обязательное.

* Найдите научные, визионерские, футурологические работы на тему выбранной вами технологии. Обязательно сошлитесь на них в списке литературы.

* Опирайтесь на методологии качественного [[сценарный анализ|сценарного анализа]].

* Можете попробовать [[Дельфийский метод]], если сможете сами организоваться в команду экспертов.

* Рассматривайте варианты. Взяв одну технологию, представьте, как она будет влиять на разные стороны жизни людей.

* Анализируйте баланс возможностей и угроз. Думайте на два шага вперёд — каким образом и кем технология может быть обращена во зло, и как будут устраняться эти угрозы.

* Смелее фантазируйте, но не делайте сказочных допущений. Опирайтесь только на науку. Айзек Азимов говорил, что в хорошей фантастике есть только одно фантастическое допущение, остальное — логика (если допускаете инопланетян, то не допускайте розовых единорогов). В вашем сценарии будущего должно быть ноль фантастических допущений. Хотя, количественные просчёты вполне допустимы.

* Попытайтесь ответить на вопрос «чем заниматься и чем не заниматься» уже сегодня, чтобы ваш сценарий оказался благоприятным.

* Пользоваться LLM можно и нужно, но помните об этических принципах:
** вы автор идеи; вы управляете процессом создания контента, задаёте целеполагание;
** вы пишете для людей; ваш контент должен быть интересен вашим читателям;
** определитесь с целевой аудиторией; она должна быть массовой;
** вы (вместе с LLMкой) пишете не для себя «в стол» и не для преподавателя, чтобы сдать курс; всё по-настоящему!

* Описывать промпты не обязательно.

* Рекомендую перед отправкой дать почитать эссе своим друзьям, собрать их критические отзывы и ещё улучшить текст.

* Лучшие работы с вашего согласия будут отобраны для публикации.

== Формальные требования ==

* Ограничения на объём не жёсткие: от 3 до 10 страниц.

* Эссе присылайте лектору в файле docx, odt, rtf (емэйл, ТГ).

* Дедлайн — 14 июля (последнее занятие по курсу).

== Как оценивается работа по созданию статьи ==
Оценка по 5-бальной шкале складывается из пяти бинарных факторов (да=1, нет=0):
* это было интересно, не банально
* описано влияние технологий ИИ на человека и общество
* есть продуманный обоснованный позитивный сценарий будущего
* есть реалистичное понимание ближайших шагов сценария и решаемых задач
* ноль фантастических допущений

Алгоритм iALS

2026-06-23T06:49:57Z

Описание изменений: Новая: {{well|Статья написана с использованием LLM DeepSeek-V3 и проверена участником [[Участник:Mihail Mishin|М. Мишин]] 9:50, 23...

{{well|Статья написана с использованием LLM DeepSeek-V3 и проверена участником [[Участник:Mihail Mishin|М. Мишин]] 9:50, 23 июня 2026 (MSD)
Промпт приводится полностью в [[Обсуждение:Алгоритм iALS]]}}
{{TOCright}}

== Определение и основная идея ==
'''Алгоритм iALS''' (от англ. ''implicit Alternating Least Squares'') — метод обучения [[Матричное разложение|матричных факторизаций]] для [[Рекомендательная система|рекомендательных систем]], предназначенный для работы с '''неявной обратной связью''' (просмотры, клики, покупки, прослушивания) в отличие от классических подходов, требующих явных рейтингов. Предложен в работе Hu, Koren и Volinsky (2008) и с тех пор остаётся одним из наиболее популярных [[Бейзлайн|бейзлайнов]] в академических исследованиях и промышленных внедрениях благодаря эффективности и масштабируемости. В литературе iALS также известен как '''WRMF''' (Weighted Regularized Matrix Factorization), '''WMF''' (Weighted Matrix Factorization) или '''WALS''' (Weighted Alternating Least Squares).

Ключевая проблема неявной обратной связи заключается в том, что отсутствие взаимодействия не эквивалентно отрицательному сигналу: пользователь мог не видеть товар, не заинтересоваться им или отложить решение. iALS решает эту проблему, вводя два понятия:

'''Предпочтение''' <tex>p_{ui}</tex> — бинарный индикатор того, взаимодействовал ли пользователь <tex>u</tex> с объектом <tex>i</tex>:
<tex>p_{ui} = \begin{cases} 1, & r_{ui} > 0 \ 0, & r_{ui} = 0 \end{cases}</tex>
где <tex>r_{ui}</tex> — сырое значение неявного сигнала (например, количество просмотров).

'''Уверенность''' <tex>c_{ui}</tex> — мера достоверности наблюдения, возрастающая с интенсивностью взаимодействия:
<tex>c_{ui} = 1 + \alpha r_{ui}</tex>
где <tex>\alpha</tex> — гиперпараметр, контролирующий скорость роста уверенности.

Таким образом, iALS не рассматривает все неподтверждённые взаимодействия как равнозначно отрицательные: он понижает их вес, но не игнорирует полностью.

== Математическая постановка ==
Пусть имеется <tex>m</tex> пользователей и <tex>n</tex> объектов. Цель iALS — найти две матрицы низкого ранга: <tex>X \in \mathbb{R}^{m \times d}</tex> (факторы пользователей) и <tex>Y \in \mathbb{R}^{d \times n}</tex> (факторы объектов), такие что их произведение аппроксимирует матрицу предпочтений <tex>P</tex>.

Оптимизационная задача имеет вид:

<tex>\min_{X,Y} \sum_{u=1}^{m} \sum_{i=1}^{n} c_{ui} (p_{ui} - x_u^T y_i)^2 + \lambda \left( \sum_{u=1}^{m} n_{x_u} |x_u|^2 + \sum_{i=1}^{n} m_{y_i} |y_i|^2 \right),</tex>

где:

<tex>x_u \in \mathbb{R}^d</tex> — вектор латентных факторов пользователя <tex>u</tex>;

<tex>y_i \in \mathbb{R}^d</tex> — вектор латентных факторов объекта <tex>i</tex>;

<tex>c_{ui}</tex> — уверенность;

<tex>\lambda</tex> — коэффициент регуляризации;

<tex>n_{x_u}</tex> и <tex>m_{y_i}</tex> — количество взаимодействий у пользователя и объекта соответственно (вариант регуляризации с учётом частоты).

В упрощённой формулировке (без взвешивания регуляризации по частоте) целевая функция записывается как:

<tex>\min_{X,Y} \sum_{u,i} c_{ui} (p_{ui} - x_u^T y_i)^2 + \lambda \left( \sum_u |x_u|^2 + \sum_i |y_i|^2 \right).</tex>

== Алгоритм ==
=== Попеременный метод наименьших квадратов ===
iALS минимизирует целевую функцию с помощью '''попеременного метода наименьших квадратов''' ([[Alternating least squares|ALS]]): алгоритм поочерёдно фиксирует одну матрицу факторов и решает задачу относительно другой.

'''Шаг 1: Фиксируем <tex>Y</tex>, обновляем <tex>X</tex>.''' Для каждого пользователя <tex>u</tex> решается задача:

<tex>x_u = \left( Y^T C^u Y + \lambda I \right)^{-1} Y^T C^u p_u,</tex>

где <tex>C^u \in \mathbb{R}^{n \times n}</tex> — диагональная матрица уверенностей пользователя <tex>u</tex>, <tex>p_u \in \mathbb{R}^n</tex> — вектор его предпочтений.

'''Шаг 2: Фиксируем <tex>X</tex>, обновляем <tex>Y</tex>.''' Для каждого объекта <tex>i</tex>:

<tex>y_i = \left( X^T C^i X + \lambda I \right)^{-1} X^T C^i p^i,</tex>

где <tex>C^i \in \mathbb{R}^{m \times m}</tex> — диагональная матрица уверенностей объекта <tex>i</tex>, <tex>p^i \in \mathbb{R}^m</tex> — вектор предпочтений объекта.

Шаги 1 и 2 повторяются до сходимости или в течение заданного числа итераций (обычно 10–20).

=== Вычислительный трюк и масштабируемость ===
Ключевая причина эффективности iALS заключается в том, что выражение <tex>Y^T C^u Y</tex> можно переписать без явного построения диагональной матрицы <tex>C^u</tex>:

<tex>Y^T C^u Y = Y^T Y + Y^T (C^u - I) Y = Y^T Y + \sum_{i: p_{ui}=1} (c_{ui} - 1) y_i y_i^T.</tex>

Это позволяет вычислить обновление для каждого пользователя за время <tex>O(d^2 + d \cdot \text{nnz}_u)</tex>, где <tex>\text{nnz}_u</tex> — число ненулевых взаимодействий пользователя. Полная сложность одной итерации составляет <tex>O(d^2(m+n) + d \cdot |\Omega|)</tex>, где <tex>|\Omega|</tex> — общее число взаимодействий. Благодаря этому алгоритм линейно масштабируется по размеру данных.

Однако iALS имеет '''кубическую зависимость''' от размерности латентных факторов <tex>d</tex> из-за обращения матриц <tex>d \times d</tex>. Для больших <tex>d</tex> (порядка 1000 и выше) это становится узким местом. Альтернативные подходы, такие как '''iCD''' (координатный спуск), имеют квадратичную сложность по <tex>d</tex>, но на практике проигрывают iALS в скорости из-за неэффективного использования векторных инструкций процессора.

== Связь с WRMF/WMF и сравнение с другими методами ==
=== Отношение к WRMF ===
Термины '''iALS''', '''WRMF''' и '''WMF''' часто используются как синонимы, хотя между ними есть тонкие различия:

'''WRMF''' (Weighted Regularized Matrix Factorization) — общее название семейства методов взвешенной матричной факторизации;

'''iALS''' — конкретный алгоритм оптимизации (попеременный МНК) для WRMF;

'''WMF''' — часто используется как сокращение для WRMF.

Все эти подходы используют одну и ту же целевую функцию с весами уверенности.

=== Сравнение с SGD ===
Альтернативный подход к оптимизации той же целевой функции — [[Стохастический градиентный спуск|стохастический градиентный спуск]] (SGD). Основные различия между iALS и SGD:

'''Сходимость:''' iALS даёт детерминированную монотонную сходимость, тогда как SGD — стохастическую и немонотонную.

'''Параллелизация:''' iALS легко распараллеливается по пользователям и объектам, тогда как SGD требует осторожной синхронизации при параллельном обучении.

'''Скорость на разреженных данных:''' iALS очень быстр (линейная сложность по числу взаимодействий), SGD также высокоскоростен, но чувствителен к настройке темпа обучения.

'''Качество:''' iALS даёт стабильно высокое качество при правильной настройке гиперпараметров, тогда как SGD может достичь более высокой точности при тонкой настройке, но менее стабилен.

=== Сравнение с нейросетевыми подходами ===
Несмотря на почтенный возраст, iALS показывает '''конкурентоспособное качество''' по сравнению с современными методами, включая [[Вариационный автокодировщик|VAE]], [[EASE]], [[SLIM]] и [[Нейроколлаборативная фильтрация|NCF]]. В работе Rendle et al. (2021) показано, что при правильной настройке гиперпараметров iALS превосходит все перечисленные методы как минимум на половине рассмотренных бенчмарков.

Главное преимущество iALS перед нейросетевыми подходами — '''скорость обучения''' и '''простота интерпретации'''; главный недостаток — '''ограниченная выразительная способность''' линейной модели.

== Практические аспекты ==
=== Выбор гиперпараметров ===
Ключевые гиперпараметры iALS:

'''Размерность латентных факторов <tex>d</tex>''' — типичные значения: 32–256 для большинства задач, до 1000 для крупных датасетов. Рекомендуется начинать с <tex>d=128</tex>, затем удваивать размерность до насыщения качества.

'''Коэффициент уверенности <tex>\alpha</tex>''' — определяет, насколько сильно интенсивность взаимодействия влияет на вес. Обычно подбирается на валидационной выборке в диапазоне <tex>[1, 100]</tex>.

'''Коэффициент регуляризации <tex>\lambda</tex>''' — типичные значения: <tex>[0.001, 1.0]</tex>. Зависит от масштаба данных.

'''Количество итераций''' — 10–20 обычно достаточно для сходимости.

Стратегия настройки: сначала грубый поиск по сетке при <tex>d=128</tex>, затем уточнение при больших размерностях.

=== Современные оптимизации ===

'''iALS++''' — улучшенная версия, сочетающая векторную обработку iALS с пониженной сложностью iCD. Позволяет обучать модели с <tex>d=1000</tex> на датасетах типа MovieLens 20M или Million Song Dataset за считанные минуты.

'''Конъюгатный градиент''' — замена прямого обращения матриц на итерационные методы для ускорения при больших <tex>d</tex>.

'''Онлайн-обновление''' — адаптация алгоритма для потоковых данных, когда факторы обновляются инкрементально по мере поступления новых взаимодействий.

=== Программные реализации ===
Наиболее популярные реализации iALS:

'''implicit''' (Python) — библиотека с оптимизированными реализациями ALS, BPR и других алгоритмов для неявной обратной связи;

'''Apache Spark ALS''' — распределённая реализация в составе MLlib;

'''Intel oneDAL''' — оптимизированная реализация для процессоров Intel;

'''irspack''' (Python) — реализация с поддержкой различных вариантов iALS;

'''LensKit''' (Java/Kotlin) — библиотека для исследований в области рекомендательных систем.

== Актуальные направления исследований ==
=== Учёт справедливости ===
Традиционный iALS оптимизирует среднее качество рекомендаций, что может приводить к '''неравномерному распределению внимания''' (exposure) между объектами. Современные расширения, такие как '''exADMM''', модифицируют целевую функцию iALS, добавляя регуляризатор справедливости, который позволяет контролировать баланс между точностью и равномерностью экспозиции.

Другое направление — '''безопасные''' рекомендательные системы, которые улучшают качество для наименее удовлетворённых пользователей, а не только усреднённое качество.

=== Вероятностные расширения ===
Классический iALS интерпретирует все неизвестные взаимодействия как отрицательные примеры с пониженным весом. В работе De Pauw и Goethals (2024) предложена '''вероятностная интерпретация''', в которой неизвестные взаимодействия моделируются как потенциально положительные или отрицательные. Это позволило улучшить качество рекомендаций без дополнительных вычислительных затрат. Авторы также предложили логистическую версию iALS, адаптирующую алгоритм для использования логистической регрессии.

=== Масштабирование на сверхбольшие каталоги ===
Несмотря на линейную сложность по числу взаимодействий, iALS остаётся вычислительно дорогим при очень больших <tex>d</tex> из-за кубической зависимости. Разработка алгоритмов с пониженной сложностью при сохранении качества — активная область исследований.

== См. также ==

[[Матричное разложение]]

[[Коллаборативная фильтрация]]

[[Alternating least squares]]

[[Стохастический градиентный спуск]]

[[Рекомендательная система]]

[[Неявная обратная связь]]

== Литература ==

Hu, Y., Koren, Y., & Volinsky, C. (2008). Collaborative Filtering for Implicit Feedback Datasets. IEEE International Conference on Data Mining (ICDM), 263–272. [https://www.chrisvolinsky.com/publications/17546.pdf PDF] — основополагающая работа, вводящая iALS и концепцию взвешенной матричной факторизации для неявной обратной связи.

Rendle, S., Krichene, W., Zhang, L., & Koren, Y. (2021). Revisiting the Performance of iALS on Item Recommendation Benchmarks. arXiv:2110.14037. [https://arxiv.org/abs/2110.14037 arXiv:2110.14037] — масштабное эмпирическое исследование, показывающее, что iALS превосходит многие современные методы при правильной настройке гиперпараметров.

Rendle, S., Krichene, W., Zhang, L., & Koren, Y. (2021). iALS++: Speeding up Matrix Factorization with Subspace Optimization. arXiv:2110.14044. [https://arxiv.org/abs/2110.14044 arXiv:2110.14044] — предложение улучшенной версии iALS, сочетающей векторную обработку и пониженную сложность, что позволяет работать с размерностями до 1000.

De Pauw, J., & Goethals, B. (2024). The Role of Unknown Interactions in Implicit Matrix Factorization — A Probabilistic View. RecSys '24, ACM, 219–227. [https://doi.org/10.1145/3640457.3688100 DOI:10.1145/3640457.3688100] — вероятностная интерпретация неизвестных взаимодействий и логистическое расширение iALS.

Fleischer, D. (2008). Implicit Alternating Least Squares (реализация в oneDAL). [https://www.intel.com/content/www/us/en/docs/onedal/developer-guide-reference/2024-2/implicit-alternating-least-squares.html Intel oneDAL: Implicit Alternating Least Squares] — описание эффективной реализации iALS в библиотеке Intel oneDAL

Togashi, R., & Abe, K. Fair Matrix Factorisation for Large-Scale Recommender Systems. arXiv:2209.04394. [https://arxiv.org/abs/2209.04394 arXiv:2209.04394] — расширение iALS регуляризатором справедливости для контроля равномерности экспозиции объектов.

== Категории ==
[[Категория:Машинное обучение]]
[[Категория:Рекомендательные системы]]
[[Категория:Матричные разложения]]
[[Категория:Алгоритмы оптимизации]]

Закон масштабирования нейронных сетей

2026-06-22T10:39:16Z

Описание изменений:

{{well|Статья написана с использованием LLM '''DeepSeek-V3''' и проверена участником [[Участник:Gadel Mahmutov|Gadel Mahmutov]] 14:39, 22 июня 2026 (MSD)
Промпт приводится полностью в [[Обсуждение:Закон масштабирования нейронных сетей]]}}
'''Законы масштабирования нейронных сетей''' (англ. Neural scaling laws) — совокупность [[Эмпирическая закономерность|эмпирических закономерностей]], описывающих, как качество [[Глубокое обучение|глубоких нейронных сетей]] (обычно измеряемое [[Функция потерь|функцией потерь]] на тестовой выборке) изменяется в зависимости от трёх ключевых ресурсов: количества параметров модели (<tex>N</tex>), размера обучающего набора данных (<tex>D</tex>) и объёма вычислений, затраченных на обучение (<tex>C</tex>). Эти зависимости в широком диапазоне масштабов хорошо приближаются [[Степенной закон|степенными функциями]], что позволяет предсказывать поведение больших моделей по результатам экспериментов с маленькими и осознанно распределять вычислительные бюджеты. Законы масштабирования сыграли центральную роль в переходе к эпохе [[Большие языковые модели|больших языковых моделей]], определив архитектурные и тренировочные стратегии индустрии.

== Определение и основные закономерности ==
Фундаментальным наблюдением является то, что тестовая потеря <tex>L</tex> нейронной сети при вариации одного из ресурсов (при условии, что остальные ресурсы не являются узким местом) ведёт себя как
<tex>L(x) = a \cdot x^{-\alpha} + L_\infty,</tex>
где <tex>x</tex> — это <tex>N</tex>, <tex>D</tex> или <tex>C</tex>; <tex>\alpha > 0</tex> — показатель степени; <tex>a</tex> — масштабирующий коэффициент; <tex>L_\infty</tex> — асимптотически недостижимый нижний предел потерь (неустранимая [[энтропия]] данных, или «шум выборки»). В логарифмических координатах такая зависимость превращается в прямую с наклоном <tex>-\alpha</tex> и отсечкой <tex>\log a</tex>, что и дало название «степенные законы» (power laws). Для современных [[Трансформер (архитектура)|трансформерных]] языковых моделей типичные значения <tex>\alpha</tex> лежат в диапазоне <tex>0,03</tex>–<tex>0,10</tex> в зависимости от того, какой ресурс масштабируется.

На практике часто используют комбинированную форму, описывающую одновременную зависимость от размера модели и данных:
<tex>L(N, D) = \frac{A}{N^\alpha} + \frac{B}{D^\beta} + E,</tex>
где <tex>A, B, E</tex> — положительные константы, а <tex>\alpha, \beta</tex> — показатели для модели и данных соответственно. Эта параметризация лежит в основе знаменитого правила Чинчиллы.

Важнейшей связью между переменными является детерминированная оценка вычислительных затрат. Для плотной [[Авторегрессионная модель|авторегрессионной]] трансформерной модели при обучении методом [[стохастический градиентный спуск|стохастического градиентного спуска]] количество [[FLOP|операций с плавающей запятой]], необходимое для одной эпохи обучения, приблизительно равно <tex>C \approx 6 N D</tex> (коэффициент <tex>6</tex> возникает из-за того, что прямой и обратный проходы требуют <tex>2N</tex> и <tex>4N</tex> операций на один обрабатываемый токен данных соответственно). Эта формула позволяет переходить от любой пары переменных к третьей и служит основой для сопоставления подходов к масштабированию.

== Историческая справка ==
Первые систематические свидетельства предсказуемого степенного масштабирования нейронных сетей были опубликованы в 2017 году группой из Baidu и Стэнфорда (Hestness et al., 2017). На примере задач [[Машинный перевод|машинного перевода]], [[Языковое моделирование|языкового моделирования]], [[Распознавание речи|распознавания речи]] и [[Компьютерное зрение|компьютерного зрения]] они показали, что уменьшение ошибки с ростом размера данных и модели подчиняется степенной зависимости, и коэффициенты можно извлечь из экспериментов с небольшими конфигурациями.

В 2020 году исследователи из OpenAI (Kaplan et al., 2020) провели крупномасштабное исследование на языковых моделях, впервые детально охарактеризовав законы масштабирования для трансформеров и введя сам термин «scaling laws for neural language models». Они показали, что при фиксированном вычислительном бюджете значительно выгоднее увеличивать размер модели, чем объём данных (степенные показатели для <tex>N</tex> и <tex>D</tex> оказались неравны), что на несколько лет определило гонку размеров моделей ([[GPT-3]], [[Gopher]] и др.).

Переломный момент наступил в 2022 году, когда команда DeepMind в работе над моделью Chinchilla (Hoffmann et al., 2022) предложила новый метод поиска вычислительно-оптимального соотношения <tex>N</tex> и <tex>D</tex>. Они показали, что при правильном анализе выгоднее обучать модели меньшего размера на гораздо большем количестве данных, чем считалось ранее, и сформулировали «правило Чинчиллы». Эта работа изменила индустриальный тренд: рост количества параметров замедлился в пользу удлинения обучения (модели семейств [[LLaMA]], [[Mistral]] и [[Gemma]] стали заметно меньше, но обучались на триллионах токенов).

Дальнейшее развитие связано с обнаружением нарушений простых степенных законов. В 2023 году Caballero et al. формализовали концепцию сломанных законов масштабирования (broken neural scaling laws, BNSL), описывающих немонотонные изломы на кривых масштабирования. В 2024 году появились работы, переносящие логику масштабирования на этап [[Инференс|вывода]] (inference scaling), показывающие, как оптимально расходовать вычисления во время генерации ответа.

== Ключевые переменные и их взаимосвязь ==
* '''<tex>N</tex> — количество параметров модели''' (весов и смещений), определяющее её ёмкость и способность запоминать сложные паттерны. Большее <tex>N</tex> снижает [[Смещение (машинное обучение)|смещение]], но при недостатке данных приводит к [[Переобучение|переобучению]].
* '''<tex>D</tex> — размер обучающего набора данных''', измеряемый обычно в количестве токенов для языковых моделей. Увеличение <tex>D</tex> уменьшает [[Дисперсия (машинное обучение)|дисперсию]] оценки и улучшает [[обобщающая способность|обобщающую способность]].
* '''<tex>C</tex> — вычислительные затраты на обучение''', выражаемые в [[FLOP]] (операциях с плавающей запятой). Для трансформеров при полном обучении без переиспользования данных справедливо соотношение <tex>C \approx 6 N D</tex>. Если данные переиспользуются (несколько эпох), зависимость усложняется.

На практике инженер, планируя обучение, может зафиксировать доступный бюджет <tex>C</tex> и с помощью законов масштабирования выбрать такое соотношение <tex>N</tex> и <tex>D</tex>, которое минимизирует ожидаемую тестовую потерю. Традиционный подход требует экспериментов с маленькими моделями для подгонки констант <tex>A, B, E, \alpha, \beta</tex>, после чего оптимум находится аналитически.

== Практическое применение для планирования обучения ==
Законы масштабирования превратились в рутинный инструмент инженеров по машинному обучению, позволяющий:
* '''Прогнозировать качество до запуска дорогих экспериментов.''' Имея несколько точек (потеря, <tex>N</tex>, <tex>D</tex>), полученных на небольших моделях или коротких тренировках, можно экстраполировать поведение на порядки бо́льшие масштабы и оценить, окупятся ли вложения в увеличение кластера.
* '''Выбирать оптимальную архитектуру.''' На этапе дизайна модели закон масштабирования помогает сравнить, например, глубокие узкие сети с мелкими широкими: для одного и того же <tex>C</tex> предсказывается наименьшая потеря.
* '''Назначать длительность обучения.''' Зная <tex>N</tex> и целевую потерю, можно оценить необходимое количество токенов <tex>D</tex> и, следовательно, число шагов оптимизатора, что позволяет точнее планировать бюджет облачных вычислений.
* '''Распределять ресурсы между данными и моделью.''' Без законов масштабирования типичной практикой было обучение «сколько помещается в память ускорителей»; законы же дают количественные основания для обратного — осознанно ограничить размер модели и вложить сэкономленные FLOP в более длительное обучение.

Наиболее известный пример индустриального применения — разработка Chinchilla: предварительные эксперименты на моделях от 10M до 10B параметров позволили вывести правило оптимального распределения и создать 70B-модель, которая превзошла 175B-модель Gopher при одинаковых вычислительных затратах (и вчетверо меньшем размере).

== Два основных подхода: масштабирование OpenAI и правило Чинчиллы ==
=== Подход OpenAI (Kaplan et al., 2020) ===
В ранней работе OpenAI анализировалось масштабирование отдельно по <tex>N</tex> и <tex>D</tex> в режимах, когда другой ресурс избыточен. Было установлено, что при неограниченных данных потери ведут себя как
<tex>L(N) = \left( \frac{N_c}{N} \right)^{\alpha_N} + L_\infty,</tex>
где <tex>\alpha_N \approx 0,076</tex>, а <tex>N_c</tex> — константа. Аналогично для данных: <tex>L(D) = \left( \frac{D_c}{D} \right)^{\alpha_D} + L_\infty</tex> с <tex>\alpha_D \approx 0,095</tex>. Из этих соотношений следовало, что с точки зрения фиксированного бюджета <tex>C \approx 6ND</tex> оптимальное количество параметров должно расти быстрее размера данных: <tex>N_{opt} \propto C^{0,73}</tex>, <tex>D_{opt} \propto C^{0,27}</tex>. Иными словами, рекомендовалось вкладывать большую часть вычислительных ресурсов в увеличение модели. Именно эта философия привела к созданию гигантских моделей вроде GPT-3 (175B параметров, обучена на ~300 млрд токенов).

=== Правило Чинчиллы (Hoffmann et al., 2022) ===
Исследователи DeepMind применили более прямой метод: они обучали множество моделей разного размера при различной длительности, а затем подгоняли единую параметрическую форму <tex>L(N, D) = \frac{A}{N^\alpha} + \frac{B}{D^\beta} + E</tex>. Оценки показателей составили <tex>\alpha \approx 0,34</tex> и <tex>\beta \approx 0,28</tex>, а полученное оптимальное распределение ресурсов кардинально отличалось от предыдущего:
<tex>N_{opt} \propto C^{0,5}, \quad D_{opt} \propto C^{0,5}.</tex>

Следует, однако, понимать, что эти показатели 0,5 являются эмпирическим приближением, а не прямым аналитическим следствием из <tex>\alpha = 0,34</tex> и <tex>\beta = 0,28</tex>. Точное решение задачи минимизации потерь при ограничении <tex>C \approx 6ND</tex> приводит к зависимостям <tex>N_{opt} \propto C^{\beta/(\alpha+\beta)}</tex> и <tex>D_{opt} \propto C^{\alpha/(\alpha+\beta)}</tex>, что для указанных оценок дало бы <tex>N_{opt} \propto C^{0,45}</tex> и <tex>D_{opt} \propto C^{0,55}</tex>. Практическая разница в итоговой функции потерь между точным и округлённым распределением оказалась пренебрежимо малой, поэтому авторы сформулировали простое и запоминающееся «правило равного масштабирования»: при увеличении вычислительного бюджета размер модели и объём данных нужно увеличивать примерно в равной пропорции.

=== Влияние на индустрию ===
Правило Чинчиллы быстро стало индустриальным стандартом по нескольким причинам:
* '''Экономия на инференсе.''' Меньшие модели требуют меньше памяти и вычислений на этапе вывода, что снижает стоимость эксплуатации.
* '''Доступность данных.''' Интернет-данные оказались достаточно объёмны, чтобы обеспечить необходимое количество токенов (веб-масштабные корпуса содержат триллионы токенов).
* '''Устойчивость к переобучению.''' Более длительное обучение на бо́льших данных улучшает обобщение без риска катастрофического переобучения, характерного для гигантских моделей на относительно скромных данных.

В результате модели нового поколения (LLaMA-7B на 1T токенов, Mistral-7B, Gemma) имеют размер в разы меньше, чем GPT-3, но демонстрируют сопоставимое или лучшее качество.

== Ограничения и современные вызовы ==
=== Сломанные законы масштабирования (BNSL) ===
Простая степенная форма часто нарушается при переходе через определённые пороги масштаба или при смене режима обучения. Caballero et al. (2023) показали, что во многих задачах кривая потерь может содержать изломы — сломанные масштабные зависимости, которые лучше описываются функциями вида
<tex>L(x) = a + b\, x^{-c} + \frac{d}{(\log x)^k}</tex>
или более сложными композициями. Такие изломы связывают с фазовыми переходами в изучении языковых навыков, недостатком разнообразия данных на определённом уровне сложности или сменой узкого места с размера модели на размер данных. BNSL объясняют, почему простая экстраполяция иногда даёт оптимистичные или пессимистичные прогнозы, и требуют осторожности при переносе законов, полученных на маленьких моделях, на большие.

=== Насыщение данных ===
Законы масштабирования предполагают неограниченное количество новых, уникальных и качественных данных. В реальности объём доступных текстовых данных конечен (общий интернет, книги, научные статьи), и при приближении к этому пределу выгода от дальнейшего увеличения <tex>D</tex> резко падает. Эксперименты показывают, что повторение одних и тех же данных в течение нескольких эпох даёт быстро убывающую отдачу, а затем приводит к стагнации потерь и [[переобучение|переобучению]]. Это породило активный поиск синтетических данных и методов активного обучения, чтобы «разомкнуть» насыщение.

=== Масштабирование на этапе вывода ===
Традиционно законы масштабирования относились к обучению. Однако в последних работах (Snell et al., 2024) показано, что увеличение вычислительных затрат во время инференса — путём генерации нескольких вариантов ответа, удлинения цепочек рассуждений ([[Chain-of-thought|CoT]]) и использования стратегий голосования — также подчиняется степенным закономерностям. При определённых условиях оптимальное перераспределение FLOP с обучения на инференс может улучшить итоговое качество сильнее, чем простое увеличение модели. Это открывает новое измерение в планировании ресурсов: совместная оптимизация train-compute и test-compute.

== Теоретические попытки объяснения ==
Почему степенные законы возникают столь универсально? Существует несколько теоретических направлений.
* '''Распределение данных по закону Ципфа.''' Естественные данные (текст, изображения) обладают долгосрочной корреляционной структурой, в которой частоты признаков или паттернов подчиняются степенному ранговому распределению. Если модель изучает признаки в порядке убывания их информативности, а предельная отдача от каждого следующего признака убывает степенным образом, то суммарная потеря ведёт себя как степенная функция от ёмкости (Bahri et al., 2024).
* '''Эффективная размерность.''' В работе Bahri et al. (2024) показано, что показатель <tex>\alpha</tex> можно выразить через внутреннюю (эффективную) размерность датасета и модель: ошибка масштабируется как <tex>N^{-d_\text{eff}/d_\text{data}}</tex>, где <tex>d_\text{eff}</tex> отражает сложность моделируемой многообразной структуры данных. Это связывает степенные законы с геометрией данных и архитектурой сети.
* '''Статистическая физика обучения.''' В широких нейронных сетях и ядерных методах потери обобщения часто описываются степенными функциями от количества параметров в связи с концентрацией спектра ядра.

Несмотря на эти попытки, единой замкнутой теории, предсказывающей точные значения показателей <tex>\alpha, \beta</tex> исходя из свойств задачи, пока не существует, и законы масштабирования остаются в первую очередь надёжным эмпирическим инструментом.

== См. также ==
* [[GPT-3]]
* [[Chinchilla (языковая модель)]]
* [[LLaMA]]
* [[Вычислительная сложность обучения нейронных сетей]]
* [[Эффективность данных в машинном обучении]]

== Литература ==
* Hestness, J., Narang, S., Ardalani, N., Diamos, G., Jun, H., Kianinejad, H., Patwary, M., Ali, M., Yang, Y., & Zhou, Y. (2017). Deep Learning Scaling is Predictable, Empirically. ''arXiv preprint arXiv:1712.00409''.
* Rosenfeld, J. S., Rosenfeld, A., Belinkov, Y., & Shavit, N. (2020). A Constructive Prediction of the Generalization Error Across Scales. ''International Conference on Learning Representations (ICLR)''. arXiv:1909.12673.
* Kaplan, J., McCandlish, S., Henighan, T., Brown, T. B., Chess, B., Child, R., Gray, S., Radford, A., Wu, J., & Amodei, D. (2020). Scaling Laws for Neural Language Models. ''arXiv preprint arXiv:2001.08361''.
* Hoffmann, J., Borgeaud, S., Mensch, A., Buchatskaya, E., Cai, T., Rutherford, E., de Las Casas, D., Hendricks, L. A., Welbl, J., Clark, A., Hennigan, T., Noland, E., Millican, K., van den Driessche, G., Damoc, B., Guy, A., Osindero, S., Simonyan, K., Elsen, E., Rae, J. W., Vinyals, O., & Sifre, L. (2022). Training Compute-Optimal Large Language Models. ''arXiv preprint arXiv:2203.15556''.
* Caballero, E., Gupta, K., Rish, I., & Krueger, D. (2023). Broken Neural Scaling Laws. ''International Conference on Learning Representations (ICLR)''. arXiv:2210.14891.
* Snell, C., Lee, J., Xu, K., & Kumar, A. (2024). Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters. ''arXiv preprint arXiv:2408.03314''.
* Bahri, Y., Dyer, E., Kaplan, J., Lee, J., & Sharma, U. (2024). Explaining Neural Scaling Laws. ''Proceedings of the National Academy of Sciences'', 121(27), e2311878121. (arXiv:2102.06701).
* Sharma, U., & Kaplan, J. (2022). A Scaling Law for Generative Models. ''arXiv preprint arXiv:2203.16311''.

Графовое разложение

2026-06-19T20:45:18Z

Описание изменений: Написание статьи с использованием LLM

{{well|Статья написана с использованием LLM '''Gemini 3.5 Pro''' и проверена участником [[Участник:Vsevolod Peretiatko|Vsevolod Peretiatko]] 00:45, 20 июня 2026 (MSD)}}

'''Графовое разложение''' (англ. ''Graph Decomposition'') — фундаментальный класс методов в [[Дискретная математика|дискретной математике]], [[Линейная алгебра|линейной алгебре]] и [[Машинное обучение|машинном обучении]], направленный на представление исходной графовой структуры в виде совокупности более простых или канонических подструктур (топологическая декомпозиция), либо на факторизацию операторных матричных проекций графа (алгебраическое и спектральное разложение).

В контексте интеллектуального анализа данных и геометрического глубокого обучения графовое разложение выступает ключевым инструментом преодоления «проклятия неевклидовости». Сырые представления графов (такие как списки смежности или топологические разреженные матрицы) характеризуются переменной размерностью, комбинаторной сложностью и инвариантны относительно перестановок вершин. Это исключает возможность их прямой обработки классическими дискриминантными или генеративными алгоритмами. Разложение графа позволяет либо декомпозировать сложную сеть вероятностных зависимостей на сепарабельные компоненты (что критически важно для эффективного вывода в [[Вероятностные графические модели|вероятностных графических моделях]]), либо отобразить топологические свойства нерегулярных доменов в непрерывные низкоразмерные векторные пространства. Последнее обеспечивает математический фундамент для алгоритмов [[Спектральная кластеризация|спектральной кластеризации]], [[Снижение размерности|снижения размерности]] и проектирования [[Графовые нейронные сети|графовых нейронных сетей]].

== Математическая постановка и основные представления ==

Пусть задан взвешенный неориентированный граф <tex>G = (V, E, W)</tex>, где:
* <tex>V = \{v_1, v_2, \dots, v_n\}</tex> — конечное множество вершин, причем его мощность <tex>|V| = n</tex>;
* <tex>E \subseteq V \times V</tex> — множество ребер, связывающих пары вершин, причем <tex>|E| = m</tex>;
* <tex>W</tex> — функция весов ребер, сопоставляющая каждой паре <tex>(v_i, v_j) \in E</tex> вещественное число <tex>w_{ij} > 0</tex>, характеризующее интенсивность или близость связи. Для невзвешенных графов принимают <tex>w_{ij} = 1</tex> при наличии ребра.

Для аналитического описания и последующей декомпозиции структуры графа <tex>G</tex> вводятся следующие фундаментальные матричные операторы:

'''[[Матрица смежности]]''' <tex>A \in \mathbb{R}^{n \times n}</tex> определяет попарные связи между вершинами:
<tex>A_{ij} = \begin{cases} w_{ij}, & (v_i, v_j) \in E, \\ 0 \end{cases}</tex>
В силу неориентированности графа матрица <tex>A</tex> является строго симметричной: <tex>A = A^T</tex>.

'''Матрица степеней вершин''' <tex>D \in \mathbb{R}^{n \times n}</tex> представляет собой диагональную матрицу, элементы которой отражают суммарную топологическую значимость (локальный объем) каждой вершины:
<tex>D_{ii} = d(v_i) = \sum_{j=1}^n A_{ij},</tex>
при этом <tex>D_{ij} = 0</tex> для всех <tex>i \neq j</tex>.

'''[[Матрица Кирхгофа|Матрица Лапласа (Лапласиан графа)]]''' — центральный линейный оператор спектральной теории, инкапсулирующий как геометрию графа, так и характер диффузионных процессов на нем. В алгебраических методах машинного обучения применяются три канонические формы Лапласиана:
# ''Ненормализованный Лапласиан:'' <tex>L = D - A</tex>
# ''Симметрично нормализованный Лапласиан:'' <tex>L_{\text{sym}} = D^{-1/2} L D^{-1/2} = I - D^{-1/2} A D^{-1/2}</tex>
# ''Нормализованный Лапласиан случайного блуждания (стохастический Лапласиан):'' <tex>L_{\text{rw}} = D^{-1} L = I - D^{-1} A</tex>
Здесь <tex>I</tex> обозначает единичную матрицу размерности <tex>n \times n</tex>, а под <tex>D^{-1/2}</tex> понимается диагональная матрица с элементами <tex>(D^{-1/2})_{ii} = 1 / \sqrt{d(v_i)}</tex> при <tex>d(v_i) > 0</tex> и <tex>0</tex> при <tex>d(v_i) = 0</tex>.

=== Дифференциально-геометрическая интерпретация ===

Для строгого обоснования декомпозиционных подходов Лапласиан графа интерпретируют как дискретный аналог непрерывного дифференциального оператора Лапласа — Бельтрами <tex>\Delta</tex>, заданного на Римановом многообразии (в рамках гипотезы о многообразиях — ''manifold assumption'').

Пусть на вершинах графа определена вещественная функция (сигнал) <tex>f: V \to \mathbb{R}</tex>, представимая в виде вектора <tex>f = [f(v_1), f(v_2), \dots, f(v_n)]^T</tex>. Тогда действие ненормализованного Лапласиана на сигнал <tex>f</tex> в точке <tex>v_i</tex> эквивалентно вычислению локальной разностной кривизны:
<tex>(Lf)_i = \sum_{j=1}^n A_{ij} (f(v_i) - f(v_j))</tex>
Данное выражение показывает, что оператор измеряет отклонение значения функции в конкретной вершине относительно её взвешенного окружения.

Свойством, определяющим применимость графового разложения в задачах полуавтоматического обучения (semi-supervised learning) и [[Регуляризация|регуляризации]], является квадратичная форма Лапласиана, определяемая как графовый функционал Дирихле:
<tex>f^T L f = \frac{1}{2} \sum_{i=1}^n \sum_{j=1}^n A_{ij} (f(v_i) - f(v_j))^2</tex>

Из структуры квадратичной формы напрямую следуют два фундаментальных математических факта:
# Матрица <tex>L</tex> является полуположительно определенной (<tex>f^T L f \ge 0</tex> для любого вещественного вектора <tex>f</tex>), что гарантирует вещественность и неотрицательность её спектра.
# Квадратичная форма <tex>f^T L f</tex> служит строгой мерой гладкости функции на топологии графа. Её минимизация минимизирует «энергию» сигнала, накладывая жесткий штраф за резкие перепады значений <tex>f(v_i)</tex> и <tex>f(v_j)</tex> между теми вершинами, которые характеризуются высоким весом связи <tex>A_{ij} \gg 0</tex>.<ref>{{книга
|автор = Chung F. R. K.
|заглавие = Spectral Graph Theory
|место = Providence
|издательство = American Mathematical Society
|год = 1997
|страницы = 1–207
}}</ref>

== Спектральное разложение графа ==

Спектральное разложение (векторно-матричная факторизация) операторов графа переводит топологические свойства дискретной структуры на язык [[Линейная алгебра|линейной алгебры]]. В основе данного подхода лежит [[Спектральная теорема|спектральная теорема]] для действительных симметричных матриц. Поскольку ненормализованный Лапласиан <tex>L</tex> и симметрично нормализованный Лапласиан <tex>L_{\text{sym}}</tex> являются самосопряженными (симметричными) операторами в пространстве <tex>\mathbb{R}^{n \times n}</tex>, они допускают полное ортогональное разложение.

Формально теорема о спектральном разложении для матрицы <tex>L</tex> утверждается как:
<tex>L = U \Lambda U^T = \sum_{i=1}^n \lambda_i u_i u_i^T</tex>
где:
* <tex>U = [u_1, u_2, \dots, u_n] \in \mathbb{R}^{n \times n}</tex> — ортогональная матрица, столбцами которой являются собственные векторы оператора Лапласа (<tex>U^T U = I</tex>);
* <tex>\Lambda = \text{diag}(\lambda_1, \lambda_2, \dots, \lambda_n)</tex> — диагональная матрица вещественных собственных значений (спектра графа), упорядоченных по невозрастанию интенсивности гладкости: <tex>0 = \lambda_1 \le \lambda_2 \le \dots \le \lambda_n</tex>.

Каждая пара <tex>(\lambda_i, u_i)</tex> удовлетворяет фундаментальному уравнению на собственные значения:
<tex>L u_i = \lambda_i u_i</tex>

=== Свойства спектра и топологические инварианты ===

Спектральный состав Лапласиана несет в себе исчерпывающую информацию о макроструктуре графа. Выделяют следующие ключевые свойства:

# '''Полуположительная определенность:''' Для любого графа минимальное собственное значение <tex>\lambda_1 = 0</tex>. Ему соотносится тривиальный собственный вектор <tex>u_1 = \frac{1}{\sqrt{n}} \mathbf{1}</tex>, где <tex>\mathbf{1} = [1, 1, \dots, 1]^T</tex>. Это напрямую следует из равенства <tex>L \mathbf{1} = (D - A)\mathbf{1} = 0</tex>, поскольку сумма элементов <tex>i</tex>-й строки матрицы смежности в точности равна степени вершины <tex>D_{ii}</tex>.
# '''Кратность нулевого собственного значения:''' Кратность собственного значения <tex>\lambda = 0</tex> (число собственных значений, равных нулю) в точности равна количеству [[Связный граф|компонент связности]] графа. Если граф состоит из <tex>k</tex> изолированных подграфов <tex>\{G_1, G_2, \dots, G_k\}</tex>, то матрица <tex>L</tex> принимает блочно-диагональный вид, а подпространство решений уравнения <tex>L u = 0</tex> натягивается на индикаторные векторы этих компонент:
:<tex>u_j(v_i) = \begin{cases} \frac{1}{\sqrt{|V_j|}}, & v_i \in V_j, \\ 0 \end{cases}</tex>

=== Алгебраическая связность и число Фидлера ===

Второе наименьшее собственное значение Лапласиана <tex>\lambda_2</tex> называется '''алгебраической связностью''' графа (числом Фидлера), а соответствующий ему собственный вектор <tex>u_2</tex> — '''вектором Фидлера'''<ref>{{статья
|автор = Fiedler M.
|заглавие = Algebraic connectivity of graphs
|издание = Czechoslovak Mathematical Journal
|год = 1973
|том = 23
|номер = 2
|страницы = 298–305
}}</ref>.

Число Фидлера служит непрерывным индикатором структурной прочности графа: <tex>\lambda_2 > 0</tex> тогда и только тогда, когда граф является связным. Значение <tex>\lambda_2</tex> близко к нулю, если граф содержит «узкие горлышки» (bottlenecks) — минимальное число ребер, удаление которых разделяет граф на изолированные подмножества.

Математический смысл вектора Фидлера раскрывается через вариационный принцип Рэлея — Ритца. Релаксированная задача оптимального бинарного разреза графа на два подмножества <tex>V_1</tex> и <tex>V_2</tex> сводится к поиску вектора признаков <tex>f \in \mathbb{R}^n</tex>, минимизирующего квадратичную форму Дирихле при условиях центрированности и нормировки:
<tex>\min_{f \neq 0} \frac{f^T L f}{f^T f}</tex> при <tex>f^T \mathbf{1} = 0</tex>

В силу ортогональности спектрального базиса решением данной непрерывной задачи оптимизации является вектор Фидлера <tex>u_2</tex>, а минимальное значение функционала равно <tex>\lambda_2</tex>. Анализ знаков компонент вектора Фидлера (<tex>u_2(v_i) > 0</tex> против <tex>u_2(v_i) < 0</tex>) лежит в основе классических декомпозиционных алгоритмов кластеризации.

== Топологические и иерархические разложения ==

В отличие от алгебраических методов, оперирующих глобальным спектром матриц, топологические разложения направлены на декомпозицию графа в семейство локальных инвариантных подструктур. В машинном обучении эти подходы предопределяют вычислительную сложность алгоритмов логического вывода и оптимизации.

=== Древесная декомпозиция (Tree Decomposition) ===

Древесная декомпозиция — это отображение произвольного циклического графа в дерево мета-вершин (кластеров), сохраняющее исходные отношения смежности. Этот тип разложения незаменим при работе с разреженными структурами, обладающими скрытой иерархией.

Формально древесной декомпозицией графа <tex>G = (V, E)</tex> называется пара <tex>(T, \mathcal{X})</tex>, где <tex>T = (I, F)</tex> — дерево, а <tex>\mathcal{X} = \{X_i \mid i \in I\}</tex> — семейство подмножеств вершин (называемых «сумками», англ. ''bags''), удовлетворяющее трем аксиомам:
# '''Покрытие вершин:''' В совокупности все сумки содержат все вершины исходного графа: <tex>\bigcup_{i \in I} X_i = V</tex>.
# '''Покрытие ребер:''' Для каждого ребра <tex>(u, v) \in E</tex> существует хотя бы одна сумка <tex>X_i</tex>, содержащая обе вершины одновременно (<tex>\{u, v\} \subseteq X_i</tex>).
# '''Связность (интерполяция):''' Если одна и та же вершина <tex>v \in V</tex> входит в две разные сумки <tex>X_i</tex> и <tex>X_j</tex>, то она обязана входить во все сумки <tex>X_k</tex>, лежащие на единственном простом пути между узлами <tex>i</tex> и <tex>j</tex> в дереве <tex>T</tex>.

Важнейшей числовой характеристикой данного разложения является '''древесная ширина''' (англ. ''treewidth'') графа, обозначаемая как <tex>\text{tw}(G)</tex>. Она определяется как минимизированный по всем возможным декомпозициям максимальный размер сумки, уменьшенный на единицу:
<tex>\text{tw}(G) = \min_{(T, \mathcal{X})} \max_{i \in I} (|X_i| - 1)</tex>

Для деревьев <tex>\text{tw}(G) = 1</tex>, для циклов — <tex>2</tex>, а для полных графов <tex>K_n</tex> ширина максимальна и равна <tex>n - 1</tex>. В [[Вероятностные графические модели|вероятностных графических моделях]] древесная декомпозиция позволяет оценить вычислительную емкость графа: алгоритмы точного вывода (например, Junction Tree) масштабируются экспоненциально относительно <tex>\text{tw}(G)</tex>, что делает выявление минимальной древесной ширины NP-трудной, но критически приоритетной задачей.

=== k-core разложение (k-core decomposition) ===

<tex>k</tex>-core разложение (слоевая декомпозиция) представляет собой иерархическое разделение графа на вложенные подграфы с гарантированным уровнем топологической плотности (внутренней степени связности).

Пусть <tex>H \subseteq G</tex> — индуцированный подграф. Подграф <tex>H</tex> называется '''<tex>k</tex>-ядром''' (англ. ''<tex>k</tex>-core''), если он является максимальным подграфом, в котором минимальная степень любой вершины относительно <tex>H</tex> не меньше <tex>k</tex>:
<tex>\forall v \in V(H) \quad d_H(v) \ge k</tex>

Процесс декомпозиции носит итерационный деструктивный характер и описывается следующим предикатом:
# Задается начальный уровень <tex>k = 1</tex>.
# Из графа рекурсивно удаляются все вершины, чья текущая степень <tex>d(v) < k</tex>, вместе с инцидентными им ребрами. Удаление одних вершин снижает степени соседних, что запускает каскадную фильтрацию.
# Процесс повторяется до тех пор, пока в графе не останутся только вершины со степенью <tex>\ge k</tex>. Оставшийся связный остаток формирует <tex>k</tex>-ядро.
# Значение <tex>k</tex> инкрементируется, и процедура повторяется на усеченной топологии.

Результатом разложения является сопоставление каждой вершине инвариантного показателя — '''корового числа''' (англ. ''core number'') <tex>c(v)</tex>, равного максимальному индексу <tex>k</tex>, при котором вершина <tex>v</tex> еще удерживается в составе <tex>k</tex>-ядра.

Слоевая топологическая декомпозиция обладает вычислительной сложностью <tex>O(m)</tex> и активно применяется для:
* Масштабирования визуализации сверхбольших графов посредством отсечения периферийного шума (вершин с низким <tex>c(v)</tex>);
* Идентификации «информационных проводников» и хабов в социальных и биологических сетях, так как вершины с максимальным коровым числом топологически центрированы и устойчивы к случайным сбоям инфраструктуры.

== Классические алгебраические методы обучения на графах ==

Алгебраическое разложение матриц, ассоциированных с графами, исторически стало первым математически строгим методом извлечения латентных признаков из неевклидовых структур. В рамках классической парадигмы машинного обучения дискретные топологические свойства графа транслируются в непрерывные геометрические инварианты, которые затем используются для решения задач [[Кластеризация|кластеризации]], [[Снижение размерности|проекции данных]] и [[Обучение с учителем|обучения с учителем]].

=== Спектральная кластеризация ===

[[Спектральная кластеризация]] (англ. ''Spectral Clustering'') решает задачу разбиения множества вершин графа на <tex>k</tex> непересекающихся подмножеств <tex>V_1, V_2, \dots, V_k</tex> (<tex>\bigcup V_p = V</tex>, <tex>V_p \cap V_q = \emptyset</tex>) таким образом, чтобы минимизировать суммарный вес ребер между кластерами при условии их внутренней плотности.

Прямая комбинаторная постановка задачи через критерий нормализованного разреза<ref>{{статья
|автор = von Luxburg U.
|заглавие = A tutorial on spectral clustering
|издание = Statistics and Computing
|год = 2007
|том = 17
|номер = 4
|страницы = 395–416
}}</ref> (англ. ''Normalized Cut'', <tex>\text{NCut}</tex>) имеет вид:
<tex>\min_{V_1, \dots, V_k} \text{NCut}(V_1, \dots, V_k) = \min_{V_1, \dots, V_k} \sum_{p=1}^k \frac{\text{cut}(V_p, \bar{V}_p)}{\text{vol}(V_p)}</tex>
где <tex>\text{cut}(V_p, \bar{V}_p) = \sum_{i \in V_p, j \in \bar{V}_p} A_{ij}</tex> — суммарный вес ребер, связывающих кластер <tex>V_p</tex> с его дополнением, а <tex>\text{vol}(V_p) = \sum_{i \in V_p} D_{ii}</tex> — полный объем (суммарная степень вершин) кластера.

Минимизация функционала <tex>\text{NCut}</tex> является NP-трудной задачей. Спектральное разложение позволяет выполнить непрерывную релаксацию данной задачи. Определим матрицу индикаторов кластеров <tex>H \in \mathbb{R}^{n \times k}</tex>, элементы которой задаются как:
<tex>H_{ip} = \begin{cases} \frac{1}{\sqrt{\text{vol}(V_p)}}, & v_i \in V_p, \\ 0 \end{cases}</tex>

При такой нормировке матрица <tex>H</tex> удовлетворяет условию <tex>H^T D H = I</tex>, а исходный функционал строго переписывается через след матрицы: <tex>\text{NCut} = \text{Tr}(H^T L H)</tex>. Отбрасывание дискретного требования на элементы матрицы <tex>H</tex> приводит к непрерывной задаче оптимизации:
<tex>\min_{Z \in \mathbb{R}^{n \times k}} \text{Tr}(Z^T L_{\text{sym}} Z)</tex> при условии <tex>Z^T Z = I</tex>
где <tex>Z = D^{1/2} H</tex>. Согласно теореме Куранта — Фишера, глобальным минимумом данной задачи является матрица <tex>Z</tex>, составленная из <tex>k</tex> собственных векторов матрицы <tex>L_{\text{sym}}</tex>, соответствующих её <tex>k</tex> наименьшим собственным значениям.

В классическом алгоритме Нжи — Джордана — Вайса (NJW) строки полученной матрицы <tex>Z</tex> нормируются на единичную длину в метрике <tex>L_2</tex> для устранения координатных искажений, после чего скрытые векторные представления вершин кластеризуются стандартным методом <tex>k</tex>-средних (<tex>k</tex>-means)<ref>{{статья
|автор = Ng A. Y., Jordan M. I., Weiss Y.
|заглавие = On spectral clustering: Analysis and an algorithm
|издание = Advances in Neural Information Processing Systems (NeurIPS)
|год = 2002
|страницы = 849–856
}}</ref>.

=== Снижение размерности и Manifold Learning ===

Алгоритм Laplacian Eigenmaps<ref>{{статья
|автор = Belkin M., Niyogi P.
|заглавие = Laplacian Eigenmaps for Dimensionality Reduction and Data Representation
|издание = Neural Computation
|год = 2003
|том = 15
|номер = 6
|страницы = 1373–1396
}}</ref> использует спектральное разложение графа для построения низкоразмерного нелинейного встраивания данных, локально распределенных на скрытом Римановом многообразии.

Пусть задана выборка высокоразмерных векторов <tex>x_1, x_2, \dots, x_n \in \mathbb{R}^D</tex>. На основе метрических расстояний строится граф ближайших соседей, матрица смежности которого <tex>A</tex> отражает локальную близость объектов. Задача состоит в нахождении низкоразмерных проекций <tex>y_1, y_2, \dots, y_n \in \mathbb{R}^d</tex> (<tex>d \ll D</tex>), минимизирующих взвешенное расстояние между близкими точками:
<tex>\min_{Y} \frac{1}{2} \sum_{i=1}^n \sum_{j=1}^n A_{ij} \|y_i - y_j\|^2 = \min_{Y} \text{Tr}(Y^T L Y)</tex>
где <tex>Y = [y_1, y_2, \dots, y_n]^T \in \mathbb{R}^{n \times d}</tex> — матрица координат встраивания. Чтобы избежать тривиального решения <tex>Y = 0</tex> и коллапса всех проекций в одну точку, накладывается ограничение вариации <tex>Y^T D Y = I</tex> и условие центрирования <tex>Y^T D \mathbf{1} = 0</tex>, исключающее первый (тривиальный) собственный вектор Лапласа.

Оптимальное решение находится из обобщенной проблемы на собственные значения:
<tex>L u = \lambda D u</tex>
Координаты нового пространства формируются столбцами матрицы <tex>Y</tex>, в качестве которых берутся собственные векторы <tex>u_2, u_3, \dots, u_{d+1}</tex>, соответствующие наименьшим ненулевым собственным значениям. Графовое разложение в данном аспекте гарантирует, что топологически близкие объекты в исходном пространстве останутся геометрически близкими в редуцированном пространстве.

=== Выделение сообществ и модулярность ===

В задачах анализа сложных сетей (Network Science) разложение графа применяется для обнаружения структурных общностей без априорного знания числа кластеров. Ведущим подходом здесь является максимизация модулярности Ньюмана — Гирвана (англ. ''Modularity'')<ref>{{статья
|автор = Newman M. E. J., Girvan M.
|заглавие = Finding and evaluating community structure in networks
|издание = Physical Review E
|год = 2004
|том = 69
|номер = 2
|страницы = 026113
}}</ref>.

Модулярность <tex>Q</tex> измеряет отклонение плотности ребер внутри выделенных групп относительно математического ожидания их плотности в случайном графе с фиксированным распределением степеней вершин (модель Конфигурации):
<tex>Q = \frac{1}{2m} \sum_{i=1}^n \sum_{j=1}^n \left( A_{ij} - \frac{d_i d_j}{2m} \right) \delta(c_i, c_j)</tex>
где <tex>d_i, d_j</tex> — степени вершин, <tex>m</tex> — полное число ребер графа, а <tex>\delta(c_i, c_j) = 1</tex> при совпадении классов вершин и <tex>0</tex> в противном случае.

Вводя '''матрицу модулярности''' <tex>B \in \mathbb{R}^{n \times n}</tex> с элементами <tex>B_{ij} = A_{ij} - \frac{d_i d_j}{2m}</tex>, для бинарного разделения графа функционал можно переписать как <tex>Q = \frac{1}{4m} s^T B s</tex>, где <tex>s \in \{-1, 1\}^n</tex> — вектор принадлежности. Спектральная релаксация этой задачи приводит к анализу собственных векторов матрицы <tex>B</tex>. Поскольку матрица <tex>B</tex> не является полуположительно определенной, разложение знаков координат её максимального положительного собственного вектора указывает на оптимальное топологическое разбиение графа.

== Графовое разложение в вероятностных графических моделях ==

В области [[Вероятностные графические модели|вероятностного моделирования]] (байесовские сети, марковские случайные поля) графовая структура задает условные вероятностные зависимости между случайными величинами. Ключевая проблема здесь — точный логический вывод (англ. ''Exact Inference''), то есть вычисление маргинальных или условных распределений <tex>P(X_i \mid E)</tex>, где <tex>E</tex> — подмножество известных признаков (свидетельств). Если граф содержит циклы, прямое применение алгоритма исключения переменных становится неэффективным. Решением является декомпозиция циклического графа зависимостей в ациклическое дерево мета-вершин.

=== Алгоритм сочлененного дерева (Junction Tree Algorithm) ===

Алгоритм сочлененного дерева (также известный как дерево клик) представляет собой каноническую процедуру структурного разложения произвольного ненаправленного или направленного графа<ref>{{статья
|автор = Lauritzen S. L., Spiegelhalter D. J.
|заглавие = Local computations with probabilities on graphical structures and their application to expert systems
|издание = Journal of the Royal Statistical Society: Series B (Methodological)
|год = 1988
|том = 50
|номер = 2
|страницы = 157–224
}}</ref>. Процесс включает три строгие топологические стадии:

# '''Морализация (Moralization):''' Применяется к направленным ациклическим графам (байесовским сетям). Для устранения направленности и сохранения зависимостей типа V-структур (общие потомки несамостоятельных предков) все «родительские» вершины каждого узла попарно соединяются ненаправленными ребрами («сочетаются браком»), после чего стрелки ребер отбрасываются. Полученный граф обозначается как <tex>G_M</tex>.
# '''Триангуляция (Triangulation):''' Процесс добавления хорд во все циклы графа <tex>G_M</tex> длины более 3. Граф называется триангулированным (или хордальным), если любой его простой цикл длины <tex>\ge 4</tex> имеет хорду — ребро, соединяющее две вершины цикла, не смежные в самом цикле. Триангуляция гарантирует существование совершенного порядка исключения вершин, что эквивалентно возможности разложения графа на иерархию вложенных клик.
# '''Построение дерева клик:''' Из триангулированного графа выделяется множество всех максимальных клик (полных подграфов) <tex>\mathcal{C} = \{C_1, C_2, \dots, C_k\}</tex>. Строится мета-граф, узлами которого являются данные клики. Ребро между двумя кликами <tex>C_a</tex> и <tex>C_b</tex> взвешивается размером их пересечения: <tex>w_{ab} = |C_a \cap C_b|</tex>. Итоговое сочлененное дерево <tex>T</tex> извлекается как '''максимальное остовное дерево''' (англ. ''Maximum Spanning Tree'') данного мета-графа.

=== Свойство бегущего пересечения и передача сообщений ===

Чтобы разложение было корректным для вероятностного вывода, сочлененное дерево обязано удовлетворять '''свойству бегущего пересечения''' (англ. ''Running Intersection Property''): если вершина исходного графа <tex>x \in V</tex> принадлежит двум кликам <tex>C_i</tex> и <tex>C_j</tex>, она обязана принадлежать всем кликам, находящимся на уникальном пути между <tex>C_i</tex> и <tex>C_j</tex> внутри дерева <tex>T</tex>. Пересечения между смежными кликами в дереве образуют сепараторы: <tex>S_{ab} = C_a \cap C_b</tex>.

После проведения разложения совместное распределение исходной модели факторизуется по структуре дерева:
<tex>P(X) = \frac{\prod_{C_i \in \mathcal{C}} \psi_i(C_i)}{\prod_{S_{jk} \in \mathcal{S}} \phi_{jk}(S_{jk})}</tex>
где <tex>\psi_i</tex> и <tex>\phi_{jk}</tex> — потенциалы клик и сепараторов соответственно.

Логический вывод на декомпозированной структуре реализуется через алгоритм передачи сообщений (Message Passing / Сумма-Произведение) между кликами через разделяющие их сепараторы. Сообщение от клики <tex>C_a</tex> к клике <tex>C_b</tex> вычисляется посредством маргинализации потенциалов по переменным, не входящим в сепаратор:
<tex>{M}_{a \to b}(S_{ab}) = \sum_{C_a \backslash S_{ab}} \psi_a(C_a) \prod_{n \in \text{nb}(a) \backslash \{b\}} M_{n \to a}(S_{na})</tex>

=== Влияние древесной ширины на вычислительную сложность ===

Структурное разложение графа позволяет строго лимитировать сложность вероятностного вывода. Если исходные случайные величины являются дискретными и принимают <tex>r</tex> значений, то вычислительная сложность алгоритма передачи сообщений на сочлененном дереве составляет:
<tex>O(n \cdot r^{\text{tw}(G) + 1})</tex>
где <tex>\text{tw}(G)</tex> — древесная ширина графа, полученная в ходе триангуляции<ref>{{книга
|автор = Koller D., Friedman N.
|заглавие = Probabilistic Graphical Models: Principles and Techniques
|место = Cambridge
|издательство = MIT Press
|год = 2009
|страницы = 339–412
}}</ref>.

Таким образом, графовое разложение переводит экспоненциальную зависимость сложности от полного числа переменных модели <tex>O(r^n)</tex> в экспоненциальную зависимость исключительно от топологического инварианта — древесной ширины. Если граф разрежен и обладает малой древесной шириной (<tex>\text{tw}(G) \ll n</tex>), то декомпозиция делает точный вывод в модели вычислительно разрешимым.

== Спектральное геометрическое глубокое обучение (Спектральные GNN) ==

Спектральное геометрическое глубокое обучение (англ. ''Spectral Geometric Deep Learning'') обобщает классические архитектуры [[Сверточная нейронная сеть|сверточных нейронных сетей]] (CNN) на неевклидовы области. В евклидовых пространствах (например, в анализе изображений) операция свертки строго определена через сдвиг ядра по регулярной сетке пикселей. На графах нерегулярность топологии и отсутствие локальной системы координат делают прямой пространственный сдвиг невозможным. Спектральные [[Графовые нейронные сети|графовые нейронные сети]] (GNN) решают эту проблему, определяя операцию свертки в спектральном домене через преобразование Фурье, базис которого извлекается из спектрального разложения Лапласиана графа.

=== Преобразование Фурье на графе (Graph Fourier Transform) ===

Пусть задан вещественный сигнал на вершинах графа, представимый вектором <tex>x \in \mathbb{R}^n</tex>. [[Преобразование Фурье]] на графе (GFT) использует ортонормированные собственные векторы Лапласиана <tex>L = U \Lambda U^T</tex> в качестве базисных функций. Собственные векторы <tex>u_i</tex> интерпретируются как графовые аналоги гармонических экспонент <tex>e^{-i\omega t}</tex>, а соответствующие им собственные значения <tex>\lambda_i</tex> выступают в роли частот.

'''Прямое преобразование Фурье''' отображает пространственный сигнал <tex>x</tex> в спектральный домен:
<tex>\hat{x} = \mathcal{GF}\{x\} = U^T x</tex>
Элемент спектра <tex>\hat{x}_i</tex> характеризует амплитуду (интенсивность) частотной компоненты <tex>\lambda_i</tex> в исходном сигнале. Низкие значения <tex>\lambda_i</tex> соответствуют гладким, медленно меняющимся по топологии графа компонентам сигнала, в то время как высокие частоты фиксируют резкие локальные перепады.

'''Обратное преобразование Фурье''' реконструирует сигнал из частотного представления:
<tex>x = \mathcal{GF}^{-1}\{\hat{x}\} = U \hat{x}</tex>

=== Теория спектральной свертки ===

Согласно классической теореме о свертке, свертка двух сигналов в пространственном представлении эквивалентна поточечному умножению их образов в частотном домене. Для графового сигнала <tex>x</tex> и параметризованного фильтра <tex>g_\theta</tex> операция спектральной свертки <tex>\star_G</tex> строго формулируется как:
<tex>g_\theta \star_G x = \mathcal{GF}^{-1}\{\mathcal{GF}\{g_\theta\} \odot \mathcal{GF}\{x\}\} = U ( (U^T g_\theta) \odot (U^T x) ),</tex>
где <tex>\odot</tex> обозначает элементное произведение (произведение Адамара).

Если определить фильтр непосредственно в спектральном домене через диагональную матрицу потенциалов <tex>g_\theta(\Lambda) = \text{diag}(U^T g_\theta) = \text{diag}(\hat{g}_{\theta, 1}, \dots, \hat{g}_{\theta, n})</tex>, выражение принимает канонический матричный вид:
<tex>g_\theta \star_G x = U g_\theta(\Lambda) U^T x</tex>

=== Эволюция спектральных архитектур ===

==== Модель Бруны (2014) ====
В пионерской работе Бруны и др.<ref>{{статья
|автор = Bruna J., Zaremba W., Szlam A., LeCun Y.
|заглавие = Spectral Networks and Locally Connected Networks on Graphs
|издание = International Conference on Learning Representations (ICLR)
|год = 2014
}}</ref> фильтр <tex>g_\theta(\Lambda)</tex> задавался набором свободных обучаемых параметров для каждой частоты: <tex>g_\theta(\Lambda) = \text{diag}(\theta_1, \theta_2, \dots, \theta_n)</tex>. Данный подход обладал тремя критическими недостатками:
# Высокая вычислительная сложность: процедура требует явного нахождения матрицы собственных векторов <tex>U</tex>, что сопряжено со сложностью <tex>O(n^3)</tex> и исключает масштабирование на большие графы.
# Отсутствие пространственной локализации: изменение значения признака в одной вершине потенциально влияет на весь граф, так как базисные векторы <tex>u_i</tex> имеют глобальный носитель.
# Проблема непереносимости: число параметров фильтра жестко привязано к числу вершин <tex>n</tex>. Обученный фильтр невозможно применить к графу другой размерности или топологии, поскольку спектральный базис <tex>U</tex> уникален для каждого графа.

==== Сеть ChebNet (2016) ====
Для преодоления указанных ограничений Дефферрар и др.<ref>{{статья
|автор = Defferrard M., Bresson X., Vandergheynst P.
|заглавие = Convolutional Neural Networks on Graphs with Fast Localized Spectral Filtering
|издание = Advances in Neural Information Processing Systems (NeurIPS)
|год = 2016
|страницы = 3844–3852
}}</ref> предложили аппроксимировать спектральный фильтр <tex>g_\theta(\Lambda)</tex> усеченным рядом по [[Ортогональные многочлены|полиномам Чебышева]]. Полином Чебышева <tex>T_k(z)</tex> порядка <tex>k</tex> определяется рекуррентным соотношением:
<tex>T_0(z) = 1, \quad T_1(z) = z, \quad T_k(z) = 2z T_{k-1}(z) - T_{k-2}(z)</tex>

Аппроксимируемая функция от диагональной матрицы нормализованных частот <tex>\tilde{\Lambda}</tex> записывается как:
<tex>g_\theta(\Lambda) \approx \sum_{k=0}^K \theta_k T_k(\tilde{\Lambda}), \quad \tilde{\Lambda} = \frac{2}{\lambda_{\text{max}}} \Lambda - I</tex>
где <tex>\theta \in \mathbb{R}^{K+1}</tex> — вектор подлежащих обучению чебышевских коэффициентов, а <tex>\lambda_{\text{max}}</tex> — максимальное собственное значение Лапласиана.

Подстановка данной аппроксимации в операцию свертки приводит к математическому исключению спектрального базиса <tex>U</tex> за счет свойства <tex>U T_k(\tilde{\Lambda}) U^T = T_k(U \tilde{\Lambda} U^T) = T_k(\tilde{L})</tex>:
<tex>g_\theta \star_G x \approx U \left( \sum_{k=0}^K \theta_k T_k(\tilde{\Lambda}) \right) U^T x = \sum_{k=0}^K \theta_k T_k(\tilde{L}) x</tex>
где <tex>\tilde{L} = \frac{2}{\lambda_{\text{max}}} L - I</tex> — масштабированная матрица Лапласиана графа, спектр которой сдвинут в диапазон <tex>[-1, 1]</tex>.

Вычислительная сложность ChebNet составляет <tex>O(K \cdot m)</tex>, где <tex>m</tex> — число ребер. Более того, поскольку операция включает умножение на степени матрицы Лапласиана <tex>\tilde{L}^k</tex>, полученный фильтр является строго <tex>K</tex>-локализованным: сигнал в каждой вершине обновляется на основе информации исключительно из её <tex>K</tex>-шаговой топологической окрестности. При этом число параметров <tex>K+1</tex> инвариантно к размеру графа.

==== Классическая графовая сверточная сеть GCN (2017) ====
Кипф и Веллинг упростили аппарат ChebNet, предложив первый порядок локализованной аппроксимации<ref>{{статья
|автор = Kipf T. N., Welling M.
|заглавие = Semi-Supervised Classification with Graph Convolutional Networks
|издание = International Conference on Learning Representations (ICLR)
|год = 2017
}}</ref>. В модели GCN накладываются ограничения <tex>\lambda_{\text{max}} \approx 2</tex> и <tex>K = 1</tex>. В этом случае выражение свертки редуцируется до:
<tex>g_\theta \star_G x \approx \theta_0 x + \theta_1 \left( L - I \right) x = \theta_0 x - \theta_1 D^{-1/2} A D^{-1/2} x</tex>

Для предотвращения [[Переобучение|переобучения]] и сокращения числа параметров вводится регуляризационное предположение <tex>\theta = \theta_0 = -\theta_1</tex>, что преобразует оператор к виду:
<tex>g_\theta \star_G x \approx \theta \left( I + D^{-1/2} A D^{-1/2} \right) x</tex>

Собственные значения оператора <tex>I + D^{-1/2} A D^{-1/2}</tex> лежат в диапазоне <tex>[0, 2]</tex>. Многократное применение этого оператора в глубоких многослойных сетях приводит к взрыву или затуханию градиентов. Для стабилизации авторами был предложен '''трюк ренормализации''' (англ. ''renormalization trick''): к исходной матрице смежности добавляются петли самосвязи (самопетли): <tex>\tilde{A} = A + I</tex>, а новая диагональная матрица степеней вычисляется как <tex>\tilde{D}_{ii} = \sum_j \tilde{A}_{ij}</tex>.

Финальное матричное уравнение слоя классической сети GCN для матрицы признаков <tex>H^{(l)} \in \mathbb{R}^{n \times d_l}</tex> имеет вид:
<tex>H^{(l+1)} = \sigma \left( \tilde{D}^{-1/2} \tilde{A} \tilde{D}^{-1/2} H^{(l)} W^{(l)} \right)</tex>
где <tex>W^{(l)} \in \mathbb{R}^{d_l \times d_{l+1}}</tex> — матрица обучаемых весов линейного преобразования, а <tex>\sigma</tex> — нелинейная функция активации (например, ReLU). Спектральное разложение здесь скрыто внутри симметричного сглаживающего оператора Лапласа.

== Иерархическое разложение и пулинг в нейронных сетях ==

Стандартные графовые сверточные слои агрегируют информацию локально, сохраняя исходную размерность графа <tex>n</tex>. Это эффективно для задач классификации отдельных вершин или ребер. Однако для задач классификации графа целиком (например, предсказание свойств молекул или функциональных сетей головного мозга) требуется получить единый фиксированный вектор макро-представления. Процесс поэтапного снижения пространственного разрешения графа с сохранением его глобальных свойств называется '''графовым пулингом''' (англ. ''Graph Pooling'') или '''иерархическим укрупнением''' (англ. ''Graph Coarsening'').

=== Задача укрупнения графа (Graph Coarsening) ===

Математическая цель укрупнения состоит в отображении исходного графа <tex>G = (V, E)</tex> со сложной микроструктурой в последовательность меньших графов <tex>G_1, G_2, \dots, G_L</tex>, макроструктура которых аппроксимирует фундаментальные геометрические и спектральные свойства оригинала. Физически это означает, что спектр Лапласиана укрупненного графа <tex>\Lambda_{\text{coarse}}</tex> должен с минимальной погрешностью аппроксимировать область нижних (главных частотных) собственных значений исходного Лапласиана <tex>\Lambda_{\text{fine}}</tex>, так как именно они кодируют макро-геометрию и глобальные сообщества сети.

=== Дифференциальный пулинг (DiffPool) ===

В отличие от детерминированных топологических методов сжатия (таких как алгоритм Graclus или алгебраическое многосеточное сжатие), алгоритм '''дифференциального пулинга''' (DiffPool<ref>{{статья
|автор = Ying Z., You J., Morris C., Ren P., Hamilton W. L., Leskovec J.
|заглавие = Hierarchical Graph Representation Learning with Differentiable Pooling
|издание = Advances in Neural Information Processing Systems (NeurIPS)
|год = 2018
|страницы = 4805–4815
}}</ref>) реализует сквозное дифференцируемое иерархическое разложение графа, оптимизируемое непосредственно градиентными методами в процессе обучения.

На каждом слое <tex>l</tex> модель DiffPool параллельно решает две задачи: извлекает новые признаки вершин с помощью фильтров свертки и вычисляет матрицу мягкого (вероятностного) назначения вершин в кластеры следующего иерархического уровня.

Пусть на слое <tex>l</tex> заданы текущая матрица смежности <tex>A^{(l)} \in \mathbb{R}^{n_l \times n_l}</tex> и матрица эмбеддингов <tex>H^{(l)} \in \mathbb{R}^{n_l \times d}</tex>. Архитектура использует две независимые GNN-архитектуры:

# '''Эмбеддинг-сеть''' генерирует новые векторные представления вершин: <tex>{Z}^{(l)} = \text{GNN}_{l, \text{embed}}(A^{(l)}, H^{(l)}) \in \mathbb{R}^{n_l \times d}</tex>
# '''Пулинг-сеть''' вычисляет матрицу распределения (назначения) вершин по мета-узлам следующего уровня <tex>S^{(l)} \in \mathbb{R}^{n_l \times n_{l+1}}</tex> (<tex>n_{l+1} < n_l</tex>): <tex>{S}^{(l)} = \text{softmax}\left( \text{GNN}_{l, \text{pool}}(A^{(l)}, H^{(l)}) \right)</tex>
Операция <tex>\text{softmax}</tex> применяется построчно, гарантируя, что элемент <tex>S_{ij}^{(l)} \in [0, 1]</tex> строго интерпретируется как степень принадлежности (вероятность отнесения) вершины <tex>i</tex> к макро-кластеру <tex>j</tex>.

Математическая декомпозиция и переход к укрупненной структуре слоя <tex>l+1</tex> реализуются через операторы матричного проецирования:

* '''Укрупнение признаков:''' строки матрицы представлений трансформируются под воздействием весов принадлежности:
:<tex>H^{(l+1)} = (S^{(l)})^T Z^{(l)} \in \mathbb{R}^{n_{l+1} \times d}</tex>
* '''Разложение и сжатие топологии:''' новая взвешенная матрица смежности мета-кластеров вычисляется как квадратичная форма:
:<tex>A^{(l+1)} = (S^{(l)})^T A^{(l)} S^{(l)} \in \mathbb{R}^{n_{l+1} \times n_{l+1}}</tex>

Матрица <tex>A^{(l+1)}</tex> является плотной, а её элементы отражают силу связей между выделенными макро-сообществами. Финальный вектор графа извлекается после полной декомпозиции структуры до <tex>n_L = 1</tex>. Для предотвращения формирования тривиальных или несвязных кластеров в целевую функцию DiffPool внедряют регуляризацию через [[Взаимная информация|взаимную информацию]] (энтропийный штраф на разреженность матрицы <tex>S^{(l)}</tex>) и минимизацию нормы Лапласиана укрупненного графа.

== Вычислительные аспекты, ограничения и критика ==

=== Вычислительная сложность и алгоритмы разреженных матриц ===

Полное спектральное разложение матрицы Лапласиана или матрицы смежности произвольного графа требует применения классических детерминированных методов (например, <tex>QR</tex>-алгоритма или алгоритма закручивания) и характеризуется вычислительной сложностью <tex>O(n^3)</tex> по времени и <tex>O(n^2)</tex> по памяти, где <tex>n</tex> — число вершин. Это делает прямое точное разложение неприменимым для крупномасштабных графов (миллионы и миллиарды узлов), оперирующих в реальных рекомендательных системах, поисковых индексах и социальных сетях.

В практических задачах машинного обучения эту проблему преодолевают за счет двух факторов. Во-первых, реальные пространственные графы в подавляющем большинстве являются разреженными, то есть число ребер <tex>m \ll n^2</tex>, а матрицы Лапласа содержат преимущественно нулевые элементы. Во-вторых, для таких алгоритмов, как спектральная кластеризация, Laplacian Eigenmaps или ChebNet, нет необходимости извлекать весь спектр матриц — достаточно вычислить подпространство из <tex>k</tex> наименьших (или наибольших) собственных векторов, где <tex>k \ll n</tex>.

Использование итерационных методов Крылова, в частности '''алгоритма Ланцоша''' (англ. ''Lanczos algorithm'') для симметричных матриц или метода Арнольди для асимметричных операторов, позволяет свести задачу декомпозиции к последовательности матрично-векторных умножений. Для разреженных структур сложность вычисления <tex>k</tex> пар собственных значений снижается до <tex>O(k \cdot m + k^2 n)</tex> по времени и <tex>O(k \cdot n + m)</tex> по памяти. Тем не менее, при наличии кратных собственных значений или высокой плотности спектра (спектрального сгущения) сходимость итерационных методов Крылова резко замедляется, требуя внедрения сложных процедур спектрального сдвига и предобусловливания (англ. ''preconditioning'').

=== Проблема пересглаживания (Oversmoothing) ===

Фундаментальным ограничением глубоких спектральных архитектур является эффект '''пересглаживания''' (англ. ''Oversmoothing''). Оператор нормализованного Лапласа графа по своей математической сути представляет собой дискретный фильтр нижних частот (англ. ''low-pass filter''). Применение одного слоя классической графовой свертки эквивалентно локальной диффузии — усреднению векторов признаков вершин по их непосредственной топологической окрестности.

Если нейросетевая архитектура наращивает количество слоев (<tex>l \to \infty</tex>), многократное последовательное применение Лапласиана полностью подавляет высокочастотные компоненты графового сигнала. Математически доказано, что в процессе такого иерархического разложения векторы скрытых представлений всех вершин графа необратимо сходятся к единому стационарному подпространству. Для симметрично нормализованного оператора эмбеддинг <tex>h_i</tex> каждой вершины становится прямо пропорционален квадратному корню из её топологической степени:
<tex>\lim_{l \to \infty} h_i^{(l)} \propto \sqrt{d(v_i)}</tex>

В результате вершины полностью теряют свою индивидуальную информативность (уникальность признаков), их векторные представления коллапсируют в узкий конус вещественного пространства, а точность работы модели на тестовой выборке падает до уровня случайного угадывания<ref>{{статья
|автор = Li Q., Han Z., Wu X. M.
|заглавие = Deeper Insights Into Graph Convolutional Networks for Semi-Supervised Learning
|издание = AAAI Conference on Artificial Intelligence
|год = 2018
|страницы = 3538–3545
}}</ref>. Скорость наступления пересглаживания жестко детерминирована величиной '''спектральной щели''' (англ. ''spectral gap'') Лапласиана, определяемой как второе наименьшее собственное значение <tex>\lambda_2</tex> (число Фидлера). Чем сильнее топологическая связность графа, тем меньше спектральная щель и тем быстрее наступает коллапс признаков, что исторически ограничивало глубину эффективных спектральных GNN всего 2–4 слоями.

=== Проблема пережатия информации (Oversquashing) ===

В то время как пересглаживание вызвано фильтрацией верхних частот, проблема '''пережатия информации''' (англ. ''Oversquashing'') порождается сугубо топологическими свойствами разложения неевклидовых пространств. В большинстве реальных графов (граф типа «тесный мир», соцсети, молекулярные структуры) количество вершин в <tex>r</tex>-шаговой окрестности растет экспоненциально относительно радиуса <tex>r</tex>.

При этом пространственные или локально-спектральные фильтры нейросети вынуждены агрегировать информацию из этой экспоненциально расширяющейся окрестности в фиксированный по размеру вектор эмбеддинга <tex>d</tex> центральной вершины. Возникает информационное «бутылочное горлышко» (англ. ''information bottleneck''). При попытке модели зафиксировать дальнодействующие структурные зависимости (англ. ''long-range dependencies'') через цепочки подграфов, емкости фиксированного вектора не хватает для кодирования комбинаторного объема топологических связей.

Интенсивность пережатия информации математически связана с локальным геометрическим инвариантом — '''кривизной Риччи на графах''' (в частности, дискретной кривизной Олливье — Риччи)<ref>{{статья
|автор = Topping J., Di Giovanni F., Chamberlain B. P., Dong X., Bronstein M. M.
|заглавие = Understanding over-squashing and bottlenecks on graphs via curvature
|издание = International Conference on Learning Representations (ICLR)
|год = 2022
}}</ref>. Ребра графа, обладающие сильно отрицательной кривизной Риччи, действуют как топологические мосты («узкие горлышка» между плотными кластерами). Они вызывают экстремальное пережатие информационных потоков при декомпозиции, что приводит к затуханию пространственных градиентов и потере далёких контекстных связей в процессе обучения.

== См. также ==

* [[Матрица Кирхгофа]] — фундаментальный линейный оператор дискретного анализа (Лапласиан графа), спектральное разложение которого служит основой для частотной фильтрации графовых сигналов и построения базиса Фурье.
* [[Спектральная кластеризация]] — классический алгоритм нелинейного разбиения данных, основанный на непрерывной релаксации NP-трудной дискретной задачи нормализованного разреза через анализ младших собственных векторов Лапласиана.
* [[Графовые нейронные сети]] — современный класс моделей глубокого обучения, развивающий концепцию алгебраического разложения графов до дифференцируемых пространственно-локализованных операторов свертки.
* [[Вероятностные графические модели]] — декларативная парадигма описания совместных распределений, в которой топологическое разложение циклического графа зависимостей (триангуляция и построение дерева клик) преобразует экспоненциальную сложность логического вывода в линейную.
* [[Сингулярное разложение]] — общая линейно-алгебраическая теорема о факторизации произвольных матриц, частным случаем которой для вещественных симметричных матриц смежности или модулярности графа является каноническое спектральное разложение.

== Примечания ==
{{примечания}}

== Литература ==
* {{книга
|автор = Pearl J.
|заглавие = Probabilistic Reasoning in Intelligent Systems: Networks of Plausible Inference
|место = San Francisco
|издательство = Morgan Kaufmann Publishers
|год = 1988
|isbn = 978-1558604797
}}
* {{книга
|автор = Godsil C., Royle G.
|заглавие = Algebraic Graph Theory
|место = New York
|издательство = Springer-Verlag
|год = 2001
|isbn = 978-0-387-95220-8
}}
* {{книга
|автор = Hamilton W. L.
|заглавие = Graph Representation Learning
|место = San Rafael
|издательство = Morgan & Claypool Publishers
|год = 2020
|isbn = 978-1681739625
}}
* {{статья
|автор = Wainwright M. J., Jordan M. I.
|заглавие = Graphical Models, Exponential Families and Variational Inference
|издание = Foundations and Trends in Machine Learning
|год = 2008
|том = 1
|номер = 1–2
|страницы = 1–305
}}
* {{статья
|автор = Wu Z., Pan S., Chen F., Long G., Zhang C., Yu P. S.
|заглавие = A comprehensive survey on graph neural networks
|издание = IEEE Transactions on Neural Networks and Learning Systems
|год = 2020
|том = 32
|номер = 1
|страницы = 4–24
}}
* {{статья
|автор = Bronstein M. M., Bruna J., Cohen T., Veličković P.
|заглавие = Geometric Deep Learning: Grids, Groups, Graphs, Geodesics, and Gauges
|издание = arXiv preprint arXiv:2104.13478
|год = 2021
}}

[[Категория:Машинное обучение]]
[[Категория:Интеллектуальный анализ данных]]

Оптимизация политики через самодистилляцию

2026-06-19T09:58:43Z

Описание изменений: Новая: {{well|Статья написана с использованием LLM '''OpenAI GPT-5.4''' и проверена участником [[Участник:Ilia Prokofev|Ilia Prokofev]] ...

{{well|Статья написана с использованием LLM '''OpenAI GPT-5.4''' и проверена участником [[Участник:Ilia Prokofev|Ilia Prokofev]] 18:00, 16 июня 2026 (MSD)}}

'''Self-Distillation Policy Optimization''' ('''SDPO''') — метод посттренировки [[большая языковая модель|больших языковых моделей]], сочетающий идеи [[обучение с подкреплением|обучения с подкреплением]] и self-distillation. Метод предложен в работе ''Reinforcement Learning via Self-Distillation'' (arXiv:2601.20802), опубликованной 28 января 2026 года. Основная идея SDPO состоит в том, что модель может использовать собственные ответы, дополненные обратной связью от среды, как источник плотного токен-уровневого сигнала обучения.

В отличие от стандартного [[Reinforcement Learning with Verifiable Rewards|RLVR]], где модель после каждой попытки получает только скалярную награду, SDPO опирается на более богатую форму обратной связи: сообщения об ошибках, результаты запуска кода, замечания judge-модели, текст успешного решения или другие tokenized feedback signals. На основе этой информации текущая модель выступает сразу в двух ролях:

* как ''student'', генерирующий исходный ответ;
* как ''self-teacher'', пересматривающий тот же ответ после получения feedback.

За счёт этого SDPO превращает разреженную outcome reward в плотный logit-level training signal.

== Постановка ==

В классической схеме RLVR для вопроса <tex>x</tex> модель с policy <tex>\pi_\theta</tex> порождает ответ

::<tex>y \sim \pi_\theta(\cdot|x)</tex>

и получает только скалярную награду <tex>r \in \mathbb{R}</tex>, нередко бинарную. Такая схема страдает от credit assignment bottleneck: известно, что попытка была плохой, но неясно, ''какие именно токены'' привели к ошибке.

SDPO расширяет эту постановку до режима, который авторы называют '''reinforcement learning with rich feedback'''. Вместо одного числа модель получает текстовую обратную связь <tex>f</tex>, содержащую более детальную информацию о результате попытки. Тогда self-teacher определяется как та же самая модель, но уже в контексте вопроса и feedback:

::<tex>\pi_\theta(\cdot|x,f)</tex>

Интуитивно предполагается, что модель, увидев feedback, сможет в ретроспективе лучше понять, где именно исходная траектория была неудачной.

== Основная идея ==

Пусть student сгенерировал ответ <tex>y = (y_1,\dots,y_T)</tex>. Затем среда возвращает feedback <tex>f</tex>. Вместо того чтобы сразу оптимизировать policy gradient по скалярной награде, SDPO заново вычисляет распределения next-token probabilities для той же последовательности <tex>y</tex>, но уже под self-teacher-контекстом.

Тем самым для каждого шага <tex>t</tex> сравниваются два распределения:

* student distribution: <tex>\pi_\theta(\cdot|x,y_{<t})</tex>;
* self-teacher distribution: <tex>\pi_\theta(\cdot|x,f,y_{<t})</tex>.

Если self-teacher после получения feedback сильнее предпочитает другие токены, чем те, что student считал вероятными изначально, это интерпретируется как сигнал ошибки именно в соответствующем участке ответа.

== Функция потерь ==

В статье SDPO формулируется как logit-level distillation objective. Основная функция потерь имеет вид:

::<tex>\mathcal{L}_{\mathrm{SDPO}}(\theta) := \sum_t \mathrm{KL}\Bigl(\pi_\theta(\cdot|x,y_{<t}) \,\|\, \mathrm{stopgrad}\bigl(\pi_\theta(\cdot|x,f,y_{<t})\bigr)\Bigr)</tex>

Здесь:

* <tex>\pi_\theta(\cdot|x,y_{<t})</tex> — student distribution на шаге <tex>t</tex>;
* <tex>\pi_\theta(\cdot|x,f,y_{<t})</tex> — self-teacher distribution после получения feedback;
* <tex>\mathrm{stopgrad}</tex> блокирует обратное распространение градиента через teacher branch.

Смысл этой потери состоит в том, чтобы подтянуть student к тем распределениям токенов, которые та же модель считает более правдоподобными уже после ретроспективного анализа ошибки.

== Градиентная интерпретация ==

Одно из ключевых наблюдений авторов состоит в том, что SDPO можно интерпретировать как policy gradient с особыми token-level advantages. В статье приводится следующая форма градиента:

::<tex>\nabla_\theta \mathcal{L}_{\mathrm{SDPO}}(\theta)=\mathbb{E}_{y\sim\pi_\theta(\cdot|x)}\left[\sum_{t=1}^{|y|}\sum_{\hat{y}_t\in\mathcal{V}} \nabla_\theta \log \pi_\theta(\hat{y}_t|x,y_{<t}) \cdot \log \frac{\pi_\theta(\hat{y}_t|x,y_{<t})}{\pi_\theta(\hat{y}_t|x,f,y_{<t})}\right]</tex>

где <tex>\mathcal{V}</tex> — словарь модели.

Эта формула показывает, что SDPO можно понимать как прямое обобщение RLVR:

* вместо sequence-level scalar advantage используется плотный token-level signal;
* advantage становится положительным или отрицательным в зависимости от расхождения между student и self-teacher;
* нулевой вклад дают только те токены, по которым student и teacher полностью согласны.

== Алгоритм ==

В упрощённом виде один шаг SDPO выглядит так:

# выбрать вопрос <tex>x</tex>;
# сгенерировать несколько ответов из текущей policy;
# получить environment feedback для каждого ответа;
# пересчитать log-probabilities тех же ответов под self-teacher-контекстом;
# обновить параметры модели по distillation loss.

Если записать это чуть более формально, то для rollout group размера <tex>G</tex> сначала генерируются ответы

::<tex>\{y_i\}_{i=1}^{G} \sim \pi_\theta(\cdot|x)</tex>

затем для каждого <tex>y_i</tex> извлекается feedback <tex>f_i</tex>, после чего выполняется шаг градиентного спуска по <tex>\mathcal{L}_{\mathrm{SDPO}}</tex>.

== Связь с GRPO ==

SDPO часто сравнивают с [[Групповая относительная оптимизация политики]] (GRPO), так как оба метода предназначены для online post-training reasoning-моделей.

У GRPO credit assignment строится по итоговым наградам rollout group. Если все попытки в группе получают одинаковую награду, advantage может схлопнуться к нулю. В SDPO такая проблема смягчается, потому что feedback-информированный self-teacher может всё равно указать на локальные различия между удачными и неудачными токенами.

Главные различия можно сформулировать так:

* GRPO использует sequence-level reward и group-relative advantage;
* SDPO использует feedback-conditioned self-distillation;
* GRPO особенно естественен в RLVR;
* SDPO особенно полезен там, где среда возвращает rich feedback, а не только итоговую оценку.

Авторы также показывают, что SDPO может работать и в стандартных RLVR-задачах без текстовой обратной связи: в этом случае в роли feedback можно использовать успешные rollouts из той же группы, если они уже были найдены.

== Где SDPO особенно полезен ==

Метод особенно хорошо подходит для сред, где ошибка сопровождается содержательным сигналом. Типичные примеры:

* competitive programming с сообщениями о runtime errors;
* code generation с failing unit tests;
* tool use с диагностикой некорректного вызова;
* scientific reasoning с judge feedback;
* agentic systems, в которых можно логировать промежуточные состояния и выдавать их модели как tokenized feedback.

Именно в таких задачах разница между ''получить число 0'' и ''получить объяснение, почему получен 0'' наиболее существенна.

== Практические детали ==

Авторы отмечают, что у SDPO есть умеренный вычислительный overhead: кроме student forward pass нужно ещё вычислить log-probabilities self-teacher. Однако это дешевле, чем полноценная дополнительная генерация, так как учителю не нужно сэмплировать новый ответ — достаточно переоценить уже существующую траекторию.

Для повышения устойчивости в статье используются две важные модификации:

* регуляризованный self-teacher, например через EMA teacher или интерполяцию с исходной моделью;
* симметричная [[дивергенция Йенсена — Шеннона|дивергенция Йенсена — Шеннона]] вместо чистой KL-дивергенции в некоторых практических вариантах.

Кроме того, для экономии памяти предлагается приближённая top-<tex>K</tex> distillation, чтобы не хранить полные logits student и teacher на всём словаре.

== Экспериментальные результаты ==

Согласно abstract и основным таблицам статьи, SDPO улучшает и sample efficiency, и финальное качество по сравнению с сильными RLVR-baseline'ами.

Авторы рассматривают три сценария:

* обучение без rich feedback, где успешные rollouts используются как implicit feedback;
* обучение с rich feedback на задачах competitive programming из LiveCodeBench v6;
* test-time self-distillation для ускоренного поиска решения на трудных бинарных задачах.

В частности, на LiveCodeBench v6 с Qwen3-8B SDPO, по данным статьи, существенно превосходит улучшенную версию GRPO и достигает сопоставимого качества примерно в <tex>4\times</tex> меньшее число генераций. Авторы также сообщают, что в test-time режиме SDPO позволяет достигать той же вероятности нахождения решения, что и best-of-<tex>k</tex>, примерно в <tex>3\times</tex> меньшее число попыток.

== Ограничения ==

Несмотря на сильные результаты, у метода есть и ограничения.

* Качество обучения зависит от того, насколько полезен feedback для ретроспективного исправления ошибки.
* Если self-teacher сам плохо интерпретирует feedback, distillation signal может быть шумным.
* Метод слабее мотивирован в задачах, где у среды почти нет содержательной обратной связи сверх скалярной награды.
* Увеличивается вычислительная стоимость обучения по сравнению с чистым GRPO.

Кроме того, SDPO по определению опирается на предположение, что модель способна быть лучшим teacher'ом для самой себя после получения дополнительного контекста. Это предположение сильнее выполняется для крупных моделей с хорошими in-context reasoning abilities.

== Значение метода ==

SDPO важен тем, что он предлагает промежуточную точку между двумя традиционными режимами посттренировки:

* RL по скалярным наградам;
* distillation от внешнего сильного teacher'а.

Вместо внешнего учителя используется та же самая модель, но в более информированном контексте. Это делает SDPO особенно интересным для online learning, где сильный teacher может быть недоступен, а rich environment feedback уже существует.

С этой точки зрения SDPO можно рассматривать как шаг к более общему классу методов, в которых модель учится не только по итоговому вознаграждению, но и по собственной ретроспективной интерпретации своих ошибок.

== См. также ==

* [[Обучение с подкреплением]]
* [[Групповая относительная оптимизация политики]]
* [[Прямая оптимизация предпочтений]]
* [[Цепочки рассуждений]]

== Литература ==

* Hübotter J., Lübeck F., Behric L., Baumann A., Bagatella M., Marta D., Hakimi I., Shenfeld I., Kleine Buening T., Guestrin C., Krause A. ''Reinforcement Learning via Self-Distillation''. arXiv:2601.20802, 2026. https://arxiv.org/abs/2601.20802
* Schulman J. et al. ''Proximal Policy Optimization Algorithms''. arXiv:1707.06347, 2017. https://arxiv.org/abs/1707.06347
* Shao Z. et al. ''DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models''. arXiv:2402.03300, 2024. https://arxiv.org/abs/2402.03300

[[Категория:Машинное обучение]]
[[Категория:Искусственный интеллект]]
[[Категория:Большие языковые модели]]

Coconut: неявное рассуждение

2026-06-19T09:57:05Z

Описание изменений: Новая: {{well|Статья написана с использованием LLM '''OpenAI GPT-5''' и проверена участником [[Участник:Ilia Prokofev|Ilia Prokofev]] 17...

{{well|Статья написана с использованием LLM '''OpenAI GPT-5''' и проверена участником [[Участник:Ilia Prokofev|Ilia Prokofev]] 17:54, 16 июня 2026 (MSD)}}

'''Coconut''' — подход к рассуждению [[большая языковая модель|больших языковых моделей]], в котором промежуточные шаги reasoning выполняются не в дискретном пространстве слов, а в непрерывном латентном пространстве скрытых состояний модели. Название является сокращением от '''Chain of Continuous Thought'''. Подход был предложен в работе ''Training Large Language Models to Reason in a Continuous Latent Space'' (2024, версия arXiv; принята на COLM 2025).

В обычной схеме [[Цепочки рассуждений]] модель выражает промежуточные шаги рассуждения в естественном языке. Авторы Coconut ставят вопрос: обязательно ли reasoning должен происходить именно в языковом пространстве? Их ответ состоит в том, что часть промежуточного вычисления можно перенести в непрерывное пространство внутренних представлений модели, минуя декодирование промежуточных мыслей в текст.

== Мотивация ==

В chain-of-thought prompting модель вынуждена на каждом шаге выбирать очередной токен естественного языка. Это удобно для интерпретации, но не обязательно оптимально с вычислительной точки зрения.

Авторы Coconut указывают на две проблемы языкового рассуждения.

* Многие токены нужны прежде всего для связности текста, а не для самого reasoning.
* Ранний выбор слов может преждевременно зафиксировать одну траекторию вывода, хотя полезно было бы сохранять несколько альтернативных направлений рассуждения.

Из этого возникает идея: использовать скрытое состояние модели как представление ''мысли'' и подавать его обратно в модель напрямую, без промежуточной вербализации.

== Основная идея ==

Пусть входной запрос обозначен через <tex>x</tex>. В обычной CoT-схеме модель генерирует последовательность текстовых шагов рассуждения:

::<tex>x \mapsto z_1, z_2, \dots, z_T \mapsto y</tex>

где <tex>z_t</tex> — промежуточные текстовые токены, а <tex>y</tex> — окончательный ответ.

В Coconut вместо текстового шага используется непрерывное скрытое состояние:

::<tex>x \mapsto h_1, h_2, \dots, h_T \mapsto y</tex>

Здесь <tex>h_t</tex> — last hidden state модели, интерпретируемый как ''continuous thought''. Вместо декодирования <tex>h_t</tex> в слово авторы подают это состояние обратно в модель как следующий входной embedding.

Иначе говоря, модель выполняет часть reasoning не в пространстве токенов, а напрямую в пространстве скрытых представлений.

== Формализация ==

Пусть трансформер на шаге <tex>t</tex> получает контекст и строит скрытое состояние:

::<tex>h_t = F_\theta(c_t)</tex>

В стандартной autoregressive-схеме далее выбирается очередной токен:

::<tex>z_t \sim p_\theta(\cdot \mid c_t)</tex>

после чего в контекст добавляется embedding этого токена.

В Coconut шаг reasoning устроен иначе: вместо выборки дискретного токена используется непосредственно скрытое состояние:

::<tex>e_{t+1} = h_t</tex>

где <tex>e_{t+1}</tex> — embedding, подаваемый на следующий шаг. Таким образом, новая ''мысль'' получается из предыдущего скрытого представления без обязательного перевода в естественный язык.

После нескольких continuous-thought steps модель возвращается к обычной языковой генерации и выдаёт финальный ответ.

== Обучение ==

Авторы обучают Coconut поэтапно. Общая идея состоит в том, чтобы заменить часть chain-of-thought токенов на continuous thoughts и постепенно приучить модель к такому режиму вычисления.

На ранних этапах модель ещё видит обычные текстовые рассуждения. Затем некоторые сегменты reasoning-траектории заменяются латентными шагами. В результате обучение организовано как curriculum:

* сначала модель учится обычным chain-of-thought demonstration;
* затем часть промежуточных шагов начинает кодироваться в continuous latent states;
* далее число непрерывных шагов увеличивается.

Такой режим нужен потому, что полностью перейти к latent reasoning сразу трудно: модель должна научиться использовать скрытые состояния как содержательные носители промежуточного вывода, а не только как внутренние представления для следующего токена.

== Почему это может работать лучше CoT ==

Главная интуиция статьи состоит в том, что continuous thought может кодировать более богатую и менее жёстко дискретизированную информацию, чем отдельная словесная формулировка.

Авторы подчёркивают, что в языковом CoT модель на каждом шаге вынуждена выбрать одну текстовую ветвь. В latent space возможно хранить суперпозицию нескольких перспективных продолжений. В статье это интерпретируется как возможность поведения, напоминающего breadth-first search, тогда как обычный chain-of-thought чаще рано коммитится к одной траектории.

Именно поэтому Coconut особенно интересен для задач, где успех зависит не только от линейного пошагового объяснения, но и от поиска по нескольким альтернативным планам.

== Связь с Chain-of-thoughts ==

Coconut не отменяет [[Цепочки рассуждений]], а скорее обобщает его. В CoT промежуточные шаги доступны наблюдателю и выражены текстом. В Coconut часть этих шагов скрыта в латентном пространстве.

Это даёт выигрыш в гибкости, но создаёт и новую проблему: reasoning становится менее интерпретируемым. Если в CoT можно прочитать промежуточные шаги, то в Coconut непрерывная ''мысль'' не обязана иметь прямой словесный эквивалент.

Поэтому Coconut интересен как компромисс между:

* интерпретируемым, но дискретным reasoning в естественном языке;
* более компактным и потенциально более мощным latent reasoning.

== Экспериментальные результаты ==

Согласно abstract статьи, Coconut превосходит обычный CoT на логических задачах, где требуется значительный поиск при планировании, и даёт лучший компромисс между точностью и вычислительной эффективностью. Основной тезис авторов состоит в том, что latent reasoning особенно полезен там, где последовательное текстовое объяснение слишком рано фиксирует направление рассуждения.

Важный момент состоит в том, что Coconut оценивается не как универсальная замена chain-of-thoughts во всех задачах, а как специальный режим reasoning для задач, требующих substantial search.

== Ограничения ==

У подхода есть и существенные ограничения.

* Continuous thoughts хуже интерпретируются человеком, чем текстовые цепочки рассуждений.
* Неочевидно, насколько хорошо latent reasoning переносится между архитектурами и доменами.
* Обучение требует специальной curriculum-схемы, а значит, усложняет post-training.
* В задачах, где важно объяснение в естественном языке, скрытое рассуждение само по себе не решает проблему коммуникации с пользователем.

Кроме того, остаётся открытым вопрос, действительно ли latent trajectory соответствует ''настоящему'' более сильному reasoning или лишь даёт более удобный способ внутренней аппроксимации некоторых вычислений.

== Значение работы ==

Coconut важен как попытка выйти за пределы идеи, что reasoning LLM обязательно должен быть текстовым. Работа показывает, что chain-of-thought можно рассматривать не как единственно возможную форму промежуточного вывода, а как один из частных интерфейсов между внутренним вычислением модели и наблюдаемым ответом.

Это делает Coconut значимой точкой в более широком исследовательском направлении:

* reasoning beyond language;
* inference-time computation;
* search in latent space;
* переход от интерпретируемых текстовых рассуждений к более общим внутренним вычислительным траекториям.

== Исторический контекст ==

Основной публикацией является работа:

* Hao S., Sukhbaatar S., Su D., Li X., Hu Z., Weston J., Tian Y. ''Training Large Language Models to Reason in a Continuous Latent Space''. arXiv:2412.06769, 2024; принята на COLM 2025.

По смыслу Coconut тесно связан с исследованиями [[Цепочки рассуждений]], self-consistency и другими методами reasoning-time computation, но отличается от них тем, что переносит часть вычисления из текстового пространства в пространство скрытых состояний.

== См. также ==

* [[Цепочки рассуждений]]
* [[Большая языковая модель]]
* [[Групповая относительная оптимизация политики]]
* [[Оптимизация политики через самодистилляцию]]

== Литература ==

* Hao S., Sukhbaatar S., Su D., Li X., Hu Z., Weston J., Tian Y. ''Training Large Language Models to Reason in a Continuous Latent Space''. arXiv:2412.06769, 2024. https://arxiv.org/abs/2412.06769
* Wei J. et al. ''Chain-of-Thought Prompting Elicits Reasoning in Large Language Models''. arXiv:2201.11903, 2022. https://arxiv.org/abs/2201.11903
* Wang X. et al. ''Self-Consistency Improves Chain of Thought Reasoning in Language Models''. arXiv:2203.11171, 2022. https://arxiv.org/abs/2203.11171

[[Категория:Машинное обучение]]
[[Категория:Искусственный интеллект]]
[[Категория:Большие языковые модели]]

Цепочки рассуждений

2026-06-19T09:55:19Z

{{well|Статья написана с использованием LLM '''OpenAI GPT-5.4''' и проверена участником [[Участник:Ilia Prokofev|Ilia Prokofev]] 16:24, 16 июня 2026 (MSD)}}

'''Chain-of-thoughts''' (часто сокращается как '''CoT''') — способ организации вывода [[большая языковая модель|большой языковой модели]], при котором модель перед окончательным ответом порождает последовательность промежуточных шагов рассуждения. В литературе термин чаще всего используется в выражении ''chain-of-thought prompting'', то есть prompting, побуждающий модель решать задачу поэтапно.

Идея chain-of-thoughts приобрела известность после работы ''Chain-of-Thought Prompting Elicits Reasoning in Large Language Models'' (2022), где было показано, что добавление в prompt примеров пошагового рассуждения существенно улучшает результаты на задачах арифметического, символического и commonsense reasoning. Позднее этот подход стал одной из опорных техник в исследованиях [[языковая модель рассуждений|reasoning-моделей]].

== Основная идея ==

Обычный prompt часто требует от модели сразу выдать итоговый ответ:

::<tex>x \mapsto y</tex>

Подход chain-of-thoughts вводит промежуточную последовательность рассуждений:

::<tex>x \mapsto r_1, r_2, \dots, r_T \mapsto y</tex>

Здесь <tex>x</tex> — входной запрос, <tex>r_1,\dots,r_T</tex> — промежуточные шаги рассуждения, а <tex>y</tex> — окончательный ответ. Важная мысль состоит в том, что сложная задача может быть решена лучше, если модель сначала явно разложит её на подшаги.

Такой подход особенно полезен в задачах, где ответ зависит от нескольких последовательных логических переходов, вычислений или скрытых допущений.

== Chain-of-thought prompting ==

В исходной работе 2022 года chain-of-thoughts рассматривался прежде всего как техника prompting. Модели показывают несколько примеров, в которых решение сопровождается промежуточным объяснением:

* формулируется задача;
* приводится пошаговое рассуждение;
* затем записывается итоговый ответ.

После этого модель получает новый вопрос и продолжает шаблон, порождая собственную цепочку рассуждений. Такой режим называют '''few-shot chain-of-thought prompting'''.

Эмпирически было показано, что эффект особенно заметен для достаточно больших моделей. В работе Wei et al. основное улучшение наблюдалось на крупных языковых моделях, тогда как меньшие модели выигрывали заметно слабее.

== Zero-shot chain of thought ==

Позднее было показано, что для многих задач не обязательно вручную подбирать полноценные few-shot demonstrations. В ряде случаев достаточно короткой инструкции вроде:

:: ''Let’s think step by step.''

Такой подход получил название '''zero-shot chain of thought'''. Он проще few-shot-схемы, так как не требует подбора демонстрационных примеров, но качество его работы сильно зависит от модели, домена и конкретной формулировки запроса.

== Почему chain-of-thoughts работают ==

Единого окончательного теоретического объяснения у эффективности CoT нет, однако в литературе обсуждаются несколько причин.

Во-первых, цепочка рассуждений действует как скрытое разбиение сложной задачи на более простые этапы. Во-вторых, она помогает модели поддерживать и обновлять промежуточное состояние вычисления в текстовой форме. В-третьих, CoT задаёт более удачный формат вывода для задач, где правильность ответа зависит от последовательности дедуктивных или арифметических шагов.

С инженерной точки зрения CoT можно рассматривать как способ вынести часть вычисления в текстовое пространство, доступное autoregressive-модели.

== Self-consistency ==

Одним из наиболее известных расширений chain-of-thoughts стал метод '''self-consistency''', предложенный в работе ''Self-Consistency Improves Chain of Thought Reasoning in Language Models'' (2022). Вместо одной цепочки рассуждений модель генерирует несколько разных траекторий:

::<tex>r^{(1)}, r^{(2)}, \dots, r^{(N)}</tex>

после чего итоговый ответ выбирается по агрегированию, например большинством:

::<tex>\hat{y} = \mathrm{vote}(y^{(1)}, y^{(2)}, \dots, y^{(N)})</tex>

Идея self-consistency состоит в том, что одна конкретная цепочка рассуждений может оказаться неудачной, тогда как несколько независимых цепочек позволяют лучше приблизить правильный ответ.

== Связь с reasoning-моделями ==

Chain-of-thoughts сыграли важную роль в переходе от обычных instruction-tuned моделей к специализированным reasoning-моделям. Если ранние работы в основном рассматривали CoT как prompt engineering, то позднейшие исследования начали использовать цепочки рассуждений как:

* обучающие демонстрации;
* источник synthetic training data;
* промежуточное представление при post-training;
* объект для search-based inference, например в схемах типа Tree-of-Thought.

Таким образом, chain-of-thoughts перестали быть только эвристикой prompting и превратились в более общий принцип организации inference-time computation.

== Ограничения ==

Несмотря на успех, у подхода есть важные ограничения.

* Наличие длинной цепочки рассуждений не гарантирует корректность ответа.
* Модель может порождать правдоподобное, но ложное рассуждение.
* Для некоторых задач chain-of-thoughts увеличивают стоимость inference по времени и числу токенов.
* Не для всех моделей и доменов явное рассуждение одинаково полезно.
* Иногда модель может прийти к правильному ответу более коротким путём, чем развёрнутая текстовая цепочка.

Поэтому chain-of-thoughts нельзя отождествлять с «настоящим» внутренним reasoning модели. Скорее, это наблюдаемая текстовая траектория, которая часто, но не всегда, помогает получить лучший ответ.

== Значение для alignment ==

В задачах alignment chain-of-thoughts важны по двум причинам. Во-первых, они улучшают решение сложных задач и потому повышают полезность модели. Во-вторых, они дают исследователю дополнительный уровень наблюдаемости: можно анализировать не только финальный ответ, но и промежуточные шаги, по которым модель к нему пришла.

Именно поэтому chain-of-thoughts тесно связаны с современными направлениями:

* [[Групповая относительная оптимизация политики]] и другими методами RL для reasoning LLM;
* rubric-based evaluation и alignment;
* self-consistency;
* tree search и deliberate inference.

== Исторический контекст ==

Ключевой публикацией считается работа:

* Wei J., Wang X., Schuurmans D., Bosma M., Ichter B., Xia F., Chi E., Le Q., Zhou D. ''Chain-of-Thought Prompting Elicits Reasoning in Large Language Models'' (2022).

Среди ранних продолжений особенно выделяются:

* Wang X. et al. ''Self-Consistency Improves Chain of Thought Reasoning in Language Models'' (2022);
* Yao S. et al. ''Tree of Thoughts: Deliberate Problem Solving with Large Language Models'' (2023);
* Zhou D. et al. ''Least-to-Most Prompting Enables Complex Reasoning in Large Language Models'' (2023).

В совокупности эти работы оформили chain-of-thoughts как самостоятельное направление исследований на стыке prompting, inference-time search и обучения reasoning behavior.

== См. также ==

* [[Большая языковая модель]]
* [[Прямая оптимизация предпочтений]]
* [[Групповая относительная оптимизация политики]]

== Литература ==

* Wei J., Wang X., Schuurmans D., Bosma M., Ichter B., Xia F., Chi E., Le Q., Zhou D. ''Chain-of-Thought Prompting Elicits Reasoning in Large Language Models''. arXiv:2201.11903, 2022. https://arxiv.org/abs/2201.11903
* Wang X., Wei J., Schuurmans D., Le Q., Chi E., Narang S., Chowdhery A., Zhou D. ''Self-Consistency Improves Chain of Thought Reasoning in Language Models''. arXiv:2203.11171, 2022. https://arxiv.org/abs/2203.11171
* Yao S., Yu D., Zhao J., Shafran I., Narasimhan K., Cao Y., Narayanan K., Griffiths T. ''Tree of Thoughts: Deliberate Problem Solving with Large Language Models''. arXiv:2305.10601, 2023. https://arxiv.org/abs/2305.10601
* Zhou D., Scharli N., Hou L., Wei J., Scales N., Wang X., Chi E., Zhou D., Le Q. ''Least-to-Most Prompting Enables Complex Reasoning in Large Language Models''. arXiv:2205.10625, 2023. https://arxiv.org/abs/2205.10625

[[Категория:Машинное обучение]]
[[Категория:Искусственный интеллект]]
[[Категория:Большие языковые модели]]

Обучение с подкреплением по рубрикам

2026-06-19T09:53:27Z

{{well|Статья написана с использованием LLM '''OpenAI GPT-5.4''' и проверена участником [[Участник:Ilia Prokofev|Ilia Prokofev]] 15:25, 16 июня 2026 (MSD)}}

'''Rubrics as Rewards: Reinforcement Learning Beyond Verifiable Domains''' — исследовательская работа команды [[Scale AI]], посвящённая посттренировке [[большая языковая модель|больших языковых моделей]] в задачах, где нет единственного легко проверяемого правильного ответа. Авторы предлагают использовать не попарные предпочтения и не единую непрозрачную reward model, а структурированные ''рубрики'' — наборы явных критериев качества, которые затем превращаются в reward-сигнал для [[обучение с подкреплением|обучения с подкреплением]].

Работа была опубликована командой Scale Labs 23 июля 2025 года. Авторы: Anisha Gunjal, Anthony Wang, Elaine Lau, Vaskar Nath, Bing Liu, Sean M. Hendryx. В статье этот подход называется '''Rubrics as Rewards''' ('''RaR''').

== Постановка проблемы ==

В задачах типа [[Reinforcement Learning with Verifiable Rewards|RLVR]] модель можно обучать по объективной проверке результата: например, по точному совпадению ответа в математике или по прохождению тестов в программировании. Однако во многих реальных доменах — медицине, науке, аналитике, рекомендациях — качество ответа определяется сразу несколькими факторами:

* фактической корректностью;
* полнотой;
* качеством рассуждения;
* структурой и ясностью;
* отсутствием типичных ошибок и опасных пропусков.

Для таких задач простая verifiable reward часто отсутствует. Стандартный обходной путь — RLHF с preference data или reward model. Авторы RaR считают, что у этого подхода есть две слабости:

* reward-сигнал получается непрозрачным;
* модель может переобучаться на поверхностные корреляции вроде длины ответа, стиля или форматирования.

Поэтому работа предлагает промежуточный вариант между RLVR и RLHF: reward строится из явных, человекочитаемых критериев, но при этом остаётся пригодным для on-policy RL.

== Основная идея ==

Пусть задан запрос x и сгенерированный моделью ответ y. Вместо одного скалярного сигнала качества вводится набор rubric items:

::<tex>\mathcal{R}(x)=\{(w_1,c_1), (w_2,c_2), \dots, (w_M,c_M)\}</tex>

Здесь <tex>c_i</tex> — отдельный критерий качества, а <tex>w_i</tex> — его вес. Каждый критерий должен быть самодостаточным и проверяемым отдельно от остальных. Например, рубрика может требовать:

* упомянуть конкретный риск терапии;
* сравнить две альтернативы;
* сослаться на определённый механизм действия;
* явно избежать опасного упрощения;
* не пропустить ключевое противопоказание.

Таким образом, reward разлагается на набор субцелей, более близких к человеческому пониманию хорошего ответа.

== Формализация ==

В статье рассматриваются два способа агрегировать rubric-based reward.

=== Явная агрегация ===

В explicit-схеме каждый критерий оценивается отдельно. Для каждого <tex>c_i</tex> вводится бинарная функция корректности:

::<tex>f_i(x,y)\in\{0,1\}</tex>

Она показывает, удовлетворяет ли ответ <tex>y</tex> критерию <tex>c_i</tex> для запроса <tex>x</tex>. Тогда итоговая reward вычисляется как нормированная взвешенная сумма:

::<tex>R_{\mathrm{explicit}}(x,y)=\frac{\sum_{i=1}^{M} w_i f_i(x,y)}{\sum_{i=1}^{M} w_i}</tex>

Такая нормировка нужна для того, чтобы reward оставалась сопоставимой между запросами с разным числом критериев и разными весами.

=== Неявная агрегация ===

Во второй схеме рубрика не раскладывается на отдельные бинарные решения при вычислении финального reward. Вместо этого judge-модель получает сразу запрос, ответ и весь список критериев, после чего выдаёт одно итоговое число:

::<tex>R_{\mathrm{implicit}}(x,y)=J\bigl(x,y,\mathcal{R}(x)\bigr)</tex>

Здесь <tex>J</tex> — LLM-as-a-judge, который выполняет ''holistic evaluation'' по полной рубрике. Такой способ менее прозрачен на уровне отдельного шага вычисления, но, как показывают авторы, на практике часто лучше улавливает баланс между критериями, чем фиксированная ручная формула.

== Связь с RLVR ==

Одна из важных идей статьи состоит в том, что RaR можно рассматривать как обобщение RLVR. Если оставить только один критерий, дать ему единичный вес и свести проверку к обычной binary correctness function, получится частный случай классической verifiable reward:

::<tex>R_{\mathrm{RLVR}}(x,y)=f(x,y)</tex>

Отсюда следует, что RaR не отрицает RLVR, а расширяет его на ситуации, где правильность ответа многомерна и не сводится к одному exact match.

Это удобная мысль для alignment: вместо перехода от ''объективной проверки'' сразу к ''непрозрачным предпочтениям'' можно ввести промежуточный слой — явные критерии, которые всё ещё интерпретируемы и машинно применимы.

== Как строятся рубрики ==

Авторы задают четыре принципа хорошей рубрики.

'''Grounded in expert guidance.'''
Рубрики должны опираться на сильные reference answers, написанные людьми или более мощными моделями. Это помогает зафиксировать, какие факты, шаги рассуждения и выводы действительно существенны.

'''Comprehensive coverage.'''
Рубрики должны охватывать несколько измерений качества: точность, логику, полноту, стиль и типичные ошибки. В статье отдельно подчёркивается полезность negative criteria и ''pitfall''-критериев.

'''Semantic weighting.'''
Разные критерии имеют разную важность. Поэтому авторы используют семантические категории вроде ''Essential'', ''Important'', ''Optional'' и ''Pitfall'', а затем переводят их в веса.

'''Self-contained evaluation.'''
Каждый критерий должен быть написан так, чтобы его можно было проверить отдельно, не опираясь на скрытый контекст или внешнюю экспертизу.

В экспериментах рубрики генерировались автоматически сильными моделями, но обязательно с опорой на reference answers как прокси экспертного знания.

== Обучение ==

После построения рубрики reward используется внутри on-policy RL-контура. В статье policy update выполняется алгоритмом [[Групповая относительная оптимизация политики]] (GRPO):

* текущая policy генерирует ответы;
* judge-модель оценивает их по rubric-based reward;
* полученные reward используются для обновления policy.

Тем самым RaR не является отдельным RL-алгоритмом наподобие [[Проксимальная оптимизация политики]] или GRPO. Это скорее способ спецификации reward-сигнала, который можно подставлять в существующие методы оптимизации политики.

== Эксперименты ==

Авторы проверяют подход на двух датасетах:

* '''RaR-Medical-20k''' — около 20 тысяч медицинских запросов;
* '''RaR-Science-20k''' — около 20 тысяч научных запросов, согласованных с GPQA Diamond.

Базовой policy служит Qwen2.5-7B, а judge-моделью в основных экспериментах выступает gpt-4o-mini. Сравниваются несколько вариантов reward:

* '''Simple-Likert''' — judge выдаёт простой Likert score;
* '''Reference-Likert''' — judge сравнивает ответ с сильным reference answer;
* '''Predefined-RaR''' — фиксированная, не prompt-specific рубрика;
* '''RaR-Explicit''' — prompt-specific рубрика с явной агрегацией;
* '''RaR-Implicit''' — prompt-specific рубрика с holistic aggregation.

Согласно статье, лучший вариант — '''RaR-Implicit''' — даёт заметный выигрыш по сравнению с простыми Likert-based baseline'ами. На HealthBench-1k авторы сообщают улучшение до 28% относительно Simple-Likert. В таблице статьи RaR-Implicit на GPT-4o rubrics достигает score 0.3194 против 0.2489 у Simple-Likert.

== Почему это важно для alignment ==

Подход интересен не только как инженерная эвристика, но и как более прозрачная философия посттренировки.

В RLHF человек обычно сообщает, какой из двух ответов лучше. Это удобно, но не раскрывает структуру предпочтения. В RaR человек или сильная модель фактически описывает, ''каким именно должен быть хороший ответ''. За счёт этого:

* reward становится более интерпретируемой;
* проще обнаруживать reward hacking;
* легче анализировать, по каким критериям модель недоучилась;
* меньшие judge-модели могут лучше приближать человеческие оценки, если им дана хорошая rubric structure.

Scale AI отдельно подчёркивает, что rubric-guided judging улучшает согласование judge-моделей с человеческими предпочтениями по сравнению с чистым Likert scoring.

== Ограничения ==

Работа не утверждает, что rubrics решают все проблемы alignment.

Во-первых, качество reward по-прежнему зависит от качества judge-модели. Во-вторых, плохая или неполная рубрика может так же плохо специфицировать цель, как и слабая reward model. В-третьих, автоматическая генерация хороших ''pitfall''-критериев остаётся трудной задачей. В ablation-результатах авторы отмечают, что negative criteria и weighting не всегда дают ожидаемый прирост, а ключевую роль играет именно prompt-specific и expert-guided характер рубрики.

Иными словами, RaR не устраняет задачу reward design, а делает её более явной и управляемой.

== Связь с другими работами Scale AI ==

Подход RaR логически сочетается с более поздними rubric-based инициативами Scale AI. В частности, в работе '''RESEARCHRUBRICS: A Benchmark of Prompts and Rubrics for Evaluating Deep Research Agents''' (2025) команда Scale AI использует уже не training-time reward, а rubric-based evaluation для open-ended deep research systems. Там основная идея та же: качество сложного ответа лучше описывать через fine-grained criteria, чем через одну грубую итоговую оценку.

Это показывает, что для Scale AI rubrics выступают не разовой эвристикой, а общей исследовательской рамкой для alignment, judging и evaluation.

== См. также ==

* [[Обучение с подкреплением]]
* [[Групповая относительная оптимизация политики]]
* [[Прямая оптимизация предпочтений]]
* [[Цепочки рассуждений]]

== Ссылки ==

* [https://scale.com/blog/rubrics-as-rewards Using Rubrics to Build Better Models | Scale AI]
* [https://labs.scale.com/papers/rubrics_as_rewards Rubrics as Rewards: Reinforcement Learning Beyond Verifiable Domains | Scale Labs]
* [https://static.scale.com/uploads/654197dc94d34f66c0f5184e/DR_Benchmark_0914_v1%20%285%29.pdf RESEARCHRUBRICS: A Benchmark of Prompts and Rubrics for Evaluating Deep Research Agents]

== Литература ==

* Gunjal A., Wang A., Lau E., Nath V., Liu B., Hendryx S. M. ''Rubrics as Rewards: Reinforcement Learning Beyond Verifiable Domains''. Scale Labs, 2025. [https://labs.scale.com/papers/rubrics_as_rewards]
* Siegel M., The Scale Research Team. ''Using Rubrics to Build Better Models''. Scale AI Blog, 2 September 2025. [https://scale.com/blog/rubrics-as-rewards]
* Sharma M. et al. ''RESEARCHRUBRICS: A Benchmark of Prompts and Rubrics for Evaluating Deep Research Agents''. Scale AI, 2025. [https://static.scale.com/uploads/654197dc94d34f66c0f5184e/DR_Benchmark_0914_v1%20%285%29.pdf]

[[Категория:Машинное обучение]]
[[Категория:Искусственный интеллект]]
[[Категория:Большие языковые модели]]

Групповая относительная оптимизация политики

2026-06-19T09:49:15Z

{{well|Статья написана с использованием LLM '''OpenAI GPT-5.4''' и проверена участником [[Участник:Ilia Prokofev|Ilia Prokofev]] 13:40, 16 июня 2026 (MSD)}}

'''Group Relative Policy Optimization''' ('''GRPO''') — метод [[обучение с подкреплением|обучения с подкреплением]] для дообучения [[большая языковая модель|больших языковых моделей]], в котором обновление политики строится не на основе отдельной модели ценности, а на основе относительного сравнения нескольких ответов, сгенерированных для одного и того же запроса. Метод приобрёл известность после работы ''DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models'' (arXiv:2402.03300), где он был представлен как вариант [[Proximal Policy Optimization]] (PPO), уменьшающий затраты памяти и упрощающий оптимизацию.

Главная идея GRPO состоит в том, что качество ответа можно оценивать не абсолютно, а относительно других ответов из той же группы. Для каждого запроса модель генерирует несколько вариантов решения, после чего для них вычисляются награды и строятся нормированные относительные преимущества. Благодаря этому удаётся отказаться от явного критика, сохранив при этом структуру policy optimization с ограничением на слишком резкие обновления политики.

== Мотивация ==

В классических actor-critic-методах, включая [[Проксимальная оптимизация политики]], важную роль играет оценка преимущества действия, которая часто строится через функцию ценности или отдельный value head. Для больших языковых моделей такой подход может быть дорогим по памяти, чувствительным к качеству value-модели и не всегда устойчивым в задачах, где награда определяется внешним проверяющим механизмом.

В ряде современных задач, особенно в математическом и программном рассуждении, для одного и того же запроса можно получить несколько ответов и затем сравнить их по проверяемому критерию: правильности финального ответа, прохождению тестов, соответствию формату или другой rule-based reward. Это подсказывает более простой способ оценивания: сравнивать ответы внутри одной группы и использовать их относительное качество как замену advantage estimation.

Именно эту идею и реализует GRPO.

== Основная идея ==

Пусть для запроса x текущая политика генерирует группу из <tex>G</tex> ответов:

::<tex>y_1, y_2, \dots, y_G \sim \pi_{\theta_{\mathrm{old}}}(\cdot|x)</tex>

Для каждого ответа вычисляется награда <tex>r_i = r(x, y_i)</tex>. Далее по этой группе строятся выборочные среднее и стандартное отклонение:

::<tex>\mu = \frac{1}{G}\sum_{i=1}^{G} r_i</tex>

::<tex>\sigma = \sqrt{\frac{1}{G}\sum_{i=1}^{G}(r_i-\mu)^2}</tex>

После этого каждому ответу сопоставляется относительное преимущество:

::<tex>\hat{A}_i = \frac{r_i - \mu}{\sigma}</tex>

Тем самым ответ считается хорошим не сам по себе, а относительно остальных ответов из той же группы. Если награда ответа выше среднего по группе, его преимущество положительно; если ниже среднего — отрицательно.

== Функция потерь ==

Как и в PPO, в GRPO используется отношение вероятностей новой и старой политик. Для ответа <tex>y_i</tex> оно записывается как

::<tex>\rho_i(\theta) = \frac{\pi_\theta(y_i|x)}{\pi_{\theta_{\mathrm{old}}}(y_i|x)}</tex>

Основная clip-цель GRPO имеет вид

::<tex>\mathcal{L}_{GRPO}(\theta) = \mathbb{E}\left[\frac{1}{G}\sum_{i=1}^{G} \min\left( \rho_i(\theta)\hat{A}_i,\; \mathrm{clip}(\rho_i(\theta), 1-\varepsilon, 1+\varepsilon)\hat{A}_i \right)\right]</tex>

где <tex>\varepsilon</tex> — параметр clipping, ограничивающий слишком большие обновления политики.

Во многих практических реализациях к этому добавляется штраф за отклонение от опорной модели:

::<tex>\mathcal{L}(\theta) = \mathcal{L}_{GRPO}(\theta) - \beta D_{KL}(\pi_\theta \| \pi_{\mathrm{ref}})</tex>

где <tex>\pi_{\mathrm{ref}}</tex> — reference policy, а <tex>\beta</tex> регулирует силу KL-регуляризации. В контексте языковых моделей этот член помогает сохранить общую языковую компетентность и не допустить слишком резкого смещения поведения.

== Чем GRPO отличается от PPO ==

GRPO часто описывают как critic-free вариант PPO. Это полезное, хотя и слегка упрощённое описание.

Сходства:

* обе схемы используют policy ratio;
* обе используют clipping или близкие механизмы ограничения шага;
* обе оптимизируют политику по внешнему сигналу награды;
* обе могут включать KL-регуляризацию относительно опорной модели.

Отличия:

* в PPO advantage обычно опирается на value function или critic;
* в GRPO advantage строится из относительных наград внутри группы ответов;
* GRPO особенно естественен там, где легко получить несколько candidate outputs для одного запроса;
* метод часто оказывается удобным в задачах reasoning, где награда вычисляется по проверяемым правилам.

Именно отказ от явной value-модели сделал GRPO привлекательным для обучения крупных reasoning-моделей.

== Интерпретация ==

С математической точки зрения GRPO использует внутригрупповую нормализацию наград как суррогат для преимущества. Это означает, что алгоритм не пытается точно оценить абсолютную ценность каждого ответа. Вместо этого он спрашивает: ''какие ответы в данной группе оказались лучше остальных?''

Такой подход имеет два важных следствия.

Во-первых, оценка преимущества становится проще и дешевле, так как не нужно отдельно обучать critic. Во-вторых, обучение становится чувствительным к составу самой группы: один и тот же ответ может получить разный относительный сигнал в зависимости от того, с какими альтернативами он сравнивается.

Поэтому качество GRPO зависит не только от reward-функции, но и от того, насколько разнообразные и информативные выборки ответов генерируются для одного запроса.

== Преимущества ==

У GRPO есть несколько практических достоинств.

* Отсутствие отдельной value-модели снижает требования к памяти.
* В задачах с проверяемой наградой метод легко реализовать.
* Относительное сравнение ответов хорошо согласуется с задачами reasoning и multi-sample search.
* Метод естественно сочетается с rule-based reward и автоматической верификацией.

Именно поэтому GRPO стал заметным инструментом в обучении reasoning-моделей, где можно автоматически проверять решение задачи по конечному ответу, формату или исполнению программы.

== Ограничения ==

Несмотря на привлекательность, GRPO не является универсальным решением.

* Если награды внутри группы почти одинаковы, нормализация становится шумной или малоинформативной.
* При малом размере группы относительный сигнал может быть нестабилен.
* Метод сравнивает ответы только внутри одной группы, а значит, сильно зависит от качества сэмплирования.
* Если reward плохо отражает реальную цель, модель будет оптимизировать именно этот суррогат.
* Отсутствие critic упрощает схему, но не всегда гарантирует лучшую sample efficiency.

Позднейшие работы также обращали внимание на проблемы низкой дисперсии наград, zero-variance collapse и нестабильности при многокритериальных ограничениях, что привело к появлению модификаций GRPO.

== Связь с современными LLM ==

GRPO стал особенно заметен в исследованиях reasoning LLM, поскольку хорошо подходит для сценариев, где для одного запроса можно сгенерировать несколько цепочек рассуждений, проверить их внешним механизмом и затем обновить политику по относительному качеству этих цепочек.

В отличие от [[Прямая оптимизация предпочтений]], который опирается на заранее собранные пары предпочтений, GRPO обычно работает в более явной RL-постановке: модель генерирует ответы, получает награды и обновляет политику on-policy или near-on-policy способом. По этой причине GRPO особенно часто обсуждается рядом с [[Проксимальная оптимизация политики]], а не как вариация supervised fine-tuning.

В современных reasoning-системах GRPO часто сочетается с:

* reward по правильности ответа;
* format reward;
* проверкой программ по тестам;
* self-consistency и multi-sample generation;
* rule-based или verifier-based оцениванием.

== Исторический контекст ==

Термин GRPO получил широкое распространение после статьи ''DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models'' (arXiv:2402.03300), опубликованной в 2024 году. Позднее метод стал обсуждаться и в контексте моделей семейства DeepSeek-R1, где critic-free или near-critic-free схемы обучения с проверяемыми наградами сыграли важную роль в развитии reasoning behavior.

В 2026 году появились и теоретические работы, анализирующие свойства GRPO, а также модификации для constrained optimization, multi-constraint instruction following и heterogeneous preference alignment. Это показывает, что GRPO быстро превратился из инженерной эвристики в самостоятельную исследовательскую линию.

== См. также ==

* [[Обучение с подкреплением]]
* [[Проксимальная оптимизация политики]]
* [[Прямая оптимизация предпочтений]]
* [[Цепочки рассуждений]]
* [[Оптимизация политики через самодистилляцию]]

== Литература ==

* Shao Z. et al. ''DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models''. 2024.
* Zhou H. et al. ''Demystifying Group Relative Policy Optimization: Its Policy Gradient is a U-Statistic''. 2026.
* Girgis R. et al. ''Constrained Group Relative Policy Optimization''. 2026.

[[Категория:Машинное обучение]]
[[Категория:Искусственный интеллект]]
[[Категория:Большие языковые модели]]

Прямая оптимизация предпочтений

2026-06-19T09:33:30Z

{{well|Статья написана с использованием LLM '''OpenAI GPT-5.4''' и проверена участником [[Участник:Ilia Prokofev|Ilia Prokofev]] 13:34, 16 июня 2026 (MSD)}}

'''Прямая оптимизация предпочтений''' ('''Direct Preference Optimization''', '''DPO''') — метод дообучения [[большая языковая модель|больших языковых моделей]] по данным о предпочтениях, позволяющий оптимизировать поведение модели без явного обучения отдельной reward-модели и без полного цикла [[обучение с подкреплением|обучения с подкреплением]]. Метод был предложен как более простая альтернатива классическому конвейеру RLHF, в котором сначала обучается модель награды, а затем языковая модель дооптимизируется, например, методом [[Proximal Policy Optimization]].

Ключевая идея DPO состоит в том, что задача оптимизации по предпочтениям может быть сведена к задаче бинарной классификации пар ответов. Если для одного и того же запроса известно, какой из двух ответов предпочёл человек, то модель можно обучать так, чтобы вероятность предпочтительного ответа возрастала относительно менее предпочтительного. Благодаря этому удаётся напрямую использовать сравнительные аннотации вида «ответ A лучше ответа B», не строя промежуточную reward-модель как отдельный объект.

== Мотивация ==

После этапа предварительного обучения языковая модель хорошо предсказывает следующий токен, но её поведение не обязательно согласуется с человеческими ожиданиями по полезности, безопасности, точности или стилю ответа. Для решения этой проблемы развились методы обучения по предпочтениям.

Классическая схема RLHF включает несколько шагов:

# сбор пар или ранжирований ответов по человеческим предпочтениям;
# обучение reward-модели, приближающей эти предпочтения;
# оптимизацию политики языковой модели по сигналу reward-модели;
# регуляризацию относительно базовой модели, чтобы не разрушить языковую компетентность.

Хотя такой конвейер оказался практически успешным, он сложен в реализации и чувствителен к настройке. Нужно отдельно обучать reward-модель, следить за её переобучением, стабилизировать оптимизацию политики и контролировать отклонение от исходной модели. DPO был предложен как способ упростить этот процесс, сохранив связь с оптимизацией по предпочтениям.

== Основная идея ==

Пусть для запроса x имеются два ответа: предпочтительный <tex>y^+</tex> и менее предпочтительный <tex>y^-</tex>. DPO обучает модель так, чтобы отношение вероятностей этих ответов под целевой моделью росло по сравнению с опорной моделью.

Если обозначить целевую модель через <tex>\pi_\theta</tex>, а замороженную опорную модель через <tex>\pi_{\mathrm{ref}}</tex>, то оптимизация строится вокруг следующей идеи: предпочтительный ответ должен становиться относительно более вероятным, но не произвольно, а с контролем отклонения от опорной модели.

Интуитивно DPO можно понимать так:

* опорная модель задаёт исходное распределение ответов;
* данные предпочтений указывают, в какую сторону это распределение нужно сдвигать;
* параметр регуляризации управляет тем, насколько агрессивно модель будет менять своё поведение.

Вместо явного обучения функции награды метод напрямую обновляет параметры языковой модели, используя логистическую функцию потерь на парах предпочтений.

== Связь с RLHF ==

DPO тесно связан с постановкой RLHF, в которой ищется стратегия, максимизирующая ожидаемую награду при ограничении на [[дивергенция Кульбака — Лейблера|KL-дивергенцию]] относительно опорной политики. Авторы метода показывают, что при определённых предположениях оптимальную политику можно выразить через reward-функцию и опорную модель, а затем переписать обучение так, чтобы reward-модель не обучалась явно.

Поэтому DPO часто описывают как «RLHF без отдельного шага RL». Это не означает, что метод никак не связан с обучением с подкреплением. Скорее, он использует результат анализа одной из классических RLHF-постановок и переводит его в более простой режим оптимизации по размеченным предпочтениям.

== Функция потерь ==

Для каждого объекта обучения берётся тройка <tex>(x, y^+, y^-)</tex>, где:

* x — запрос;
* <tex>y^+</tex> — предпочитаемый ответ;
* <tex>y^-</tex> — отвергнутый ответ.

Целевая функция поощряет ситуацию, в которой логарифм отношения вероятностей предпочтительного и непредпочтительного ответов под настраиваемой моделью больше, чем соответствующее отношение под опорной моделью. В стандартной парной постановке основная формула DPO записывается так:

::<tex>\mathcal{L}_{DPO} = - \mathbb{E}_{(x,y^+,y^-)\sim D} \log \sigma \left( \beta \log \frac{\pi_\theta(y^+|x)}{\pi_{\mathrm{ref}}(y^+|x)} - \beta \log \frac{\pi_\theta(y^-|x)}{\pi_{\mathrm{ref}}(y^-|x)} \right)</tex>

Здесь <tex>\sigma</tex> — сигмоидная функция, а <tex>D</tex> — распределение обучающих троек предпочтений. Иначе говоря, метод максимизирует вероятность того, что предпочтительный ответ окажется лучше отвергнутого не сам по себе, а относительно опорной модели.

На практике это приводит к простой и устойчивой процедуре дообучения, близкой по вычислительной организации к supervised fine-tuning, но использующей не абсолютные эталонные ответы, а сравнительные пары.

=== Вывод формулы ===

Вывод DPO начинается со стандартной RLHF-постановки, в которой требуется найти политику, максимизирующую ожидаемую награду, но не слишком удаляющуюся от опорной модели:

::<tex>\pi^* = \arg\max_\pi \left( \mathbb{E}_{x\sim D,\; y\sim \pi(\cdot|x)} [r(x,y)] - \beta D_{KL}(\pi(y|x)\|\pi_{\mathrm{ref}}(y|x)) \right)</tex>

Из этой задачи получается замкнутая форма оптимальной политики:

::<tex>\pi^*(y|x) = \frac{1}{Z(x)} \pi_{\mathrm{ref}}(y|x)\exp\left(\frac{1}{\beta}r(x,y)\right)</tex>

где <tex>Z(x)</tex> — нормировочная константа. Отсюда можно выразить награду через оптимальную политику:

::<tex>r(x,y) = \beta \log \frac{\pi^*(y|x)}{\pi_{\mathrm{ref}}(y|x)} + \beta \log Z(x)</tex>

Далее вводится модель парных предпочтений Бредли-Терри, в которой вероятность того, что ответ ''y''+ предпочтительнее ответа ''y''-, равна:

::<tex>p(y^+ \succ y^- \mid x) = \sigma\left(r(x,y^+) - r(x,y^-)\right)</tex>

Подставляя выражение для награды, получаем:

::<tex>p(y^+ \succ y^- \mid x) = \sigma \left( \beta \log \frac{\pi_\theta(y^+|x)}{\pi_{\mathrm{ref}}(y^+|x)} - \beta \log \frac{\pi_\theta(y^-|x)}{\pi_{\mathrm{ref}}(y^-|x)} \right)</tex>

После этого остаётся максимизировать логарифм правдоподобия наблюдаемых предпочтений, что и даёт DPO-loss. Таким образом, отдельная reward-модель исчезает из вычислительного конвейера: её роль неявно берёт на себя отношение вероятностей между целевой и опорной политиками.

Параметр <tex>\beta</tex> регулирует силу предпочтительного сдвига. Слишком малое значение может сделать обучение вялым, а слишком большое — привести к переоптимизации на шумных или неоднозначных предпочтениях.

== Преимущества ==

По сравнению с классическим RLHF метод DPO имеет несколько достоинств.

* Простота. Не требуется отдельно обучать reward-модель и запускать полноценный RL-цикл.
* Стабильность. Обучение сводится к стандартной градиентной оптимизации по фиксированному датасету предпочтений.
* Вычислительная эффективность. На практике DPO часто дешевле и проще в воспроизведении, чем RLHF с онлайн-сэмплированием.
* Естественная работа с парными предпочтениями. Во многих случаях именно такие данные проще собирать от людей или автоматических судей.

Благодаря этим свойствам DPO быстро стал одним из базовых методов посттренировки открытых языковых моделей.

== Ограничения ==

Несмотря на простоту, DPO не решает автоматически все проблемы выравнивания моделей.

* Качество результата по-прежнему сильно зависит от качества данных предпочтений.
* Метод предполагает, что предпочтения уже собраны; сам по себе он не решает задачу их получения.
* Если предпочтения противоречивы, шумны или систематически смещены, модель будет наследовать эти искажения.
* DPO обычно работает в офлайн-режиме и не использует богатую обратную связь, которая может возникать при активном взаимодействии со средой.
* В ряде сложных задач прямой оптимизации по предпочтениям может быть недостаточно, и тогда требуются более сложные схемы обучения политики.

Кроме того, DPO оптимизирует поведение модели относительно заданной опорной модели и конкретного набора сравнений. Поэтому он не устраняет фундаментальную проблему спецификации цели: если предпочтения отражают лишь суррогат качества, модель может адаптироваться именно к этой суррогатной метрике.

== Развитие идеи ==

После появления DPO возникло множество его модификаций и родственных методов. Исследователи предлагали:

* варианты с другой функцией потерь;
* способы лучше учитывать силу предпочтения, а не только его знак;
* методы для групповых сравнений и списков ответов;
* схемы, связывающие оптимизацию по предпочтениям с более общими подходами к [[обучение с подкреплением|обучению с подкреплением]].

В этом ряду особенно заметны методы, ориентированные на более масштабные и структурированные сигналы качества, например [[Group Relative Policy Optimization]], а также работы, использующие автоматически создаваемые рубрики и judge-модели.

== Применение ==

DPO применяется при дообучении языковых моделей для:

* повышения полезности и согласованности ответов;
* улучшения следования инструкциям;
* снижения токсичности и нежелательного поведения;
* адаптации стиля модели под конкретные предпочтения пользователя или разработчика;
* обучения на синтетических предпочтениях, полученных от других моделей.

Метод также оказался удобным исследовательским инструментом: из-за относительной простоты его часто используют как базовую отправную точку при сравнении новых алгоритмов post-training.

== Интерпретация ==

С методологической точки зрения DPO интересен тем, что показывает: далеко не всякая успешная оптимизация по предпочтениям требует явной reward-модели и сложного цикла взаимодействия со средой. В некоторых случаях достаточно правильно переписать задачу и перейти от «обучения по награде» к «обучению по сравнительным предпочтениям».

Поэтому DPO можно рассматривать как мост между [[обучение с учителем|обучением с учителем]] и [[обучение с подкреплением|обучением с подкреплением]]. С одной стороны, обучение идёт по фиксированному набору размеченных примеров. С другой стороны, сама постановка возникает из задачи оптимизации политики по внешнему сигналу качества.

== См. также ==

* [[Обучение с подкреплением]]
* [[Проксимальная оптимизация политики]]
* [[Групповая относительная оптимизация политики]]
* [[Цепочки рассуждений]]
* [[Большая языковая модель]]

== Литература ==

* Rafailov R., Sharma A., Mitchell E., Ermon S., Manning C. D., Finn C. ''Direct Preference Optimization: Your Language Model is Secretly a Reward Model''. 2023.
* Ouyang L. et al. ''Training language models to follow instructions with human feedback''. 2022.
* Schulman J. et al. ''Proximal Policy Optimization Algorithms''. 2017.

[[Категория:Машинное обучение]]
[[Категория:Искусственный интеллект]]
[[Категория:Большие языковые модели]]

Китайская комната

2026-06-18T23:34:46Z

Описание изменений: переработка

{{well|Статья написана с использованием LLM '''ChatGPT GPT-5.5 Thinking''' и проверена участником [[Участник:Niiaz Bashirov |Niiaz Bashirov]] 19 июня 2026 (MSD).

Промпт приводится полностью в [[Обсуждение:Китайская комната]]}}

'''Китайская комната''' — мысленный эксперимент, предложенный американским философом Джоном Сёрлом в статье «Minds, Brains, and Programs» 1980 года.<ref name="Searle1980">Searle J. R. Minds, Brains, and Programs // Behavioral and Brain Sciences. 1980. Vol. 3, no. 3. P. 417–457. DOI: 10.1017/S0140525X00005756.</ref> Аргумент направлен против тезиса [[сильный искусственный интеллект|сильного искусственного интеллекта]], согласно которому правильно запрограммированная вычислительная система не только имитирует понимание, но и действительно обладает ментальными состояниями. Центральная идея аргумента состоит в различении формальной обработки символов и понимания их значения: успешное выполнение программы, по Сёрлу, само по себе не является достаточным условием семантического понимания.

== Исторический контекст ==

Аргумент китайской комнаты был сформулирован на фоне развития [[Символический искусственный интеллект|символического искусственного интеллекта]] и вычислительных подходов к объяснению мышления. Во второй половине XX века многие исследователи рассматривали интеллектуальную деятельность как обработку символических структур по формальным правилам. Сёрл не отрицал практическую ценность таких систем, но ставил под сомнение философский вывод о том, что выполнение программы само по себе достаточно для возникновения понимания.

=== Символический искусственный интеллект ===

[[Символический искусственный интеллект]] — направление, в котором интеллектуальная деятельность моделируется через операции над символами, правилами и формальными структурами. В символическом подходе знание обычно представляется в виде логических формул, фреймов, сценариев, правил вывода или иных дискретных структур.

Классическим выражением этого подхода стала гипотеза физической символьной системы, сформулированная Алленом Ньюэллом и Гербертом Саймоном. Согласно этой гипотезе, физическая символьная система обладает необходимыми и достаточными средствами для общего интеллектуального действия.<ref name="NewellSimon1976">Newell A., Simon H. A. Computer Science as Empirical Inquiry: Symbols and Search // Communications of the ACM. 1976. Vol. 19, no. 3. P. 113–126.</ref>

Китайская комната направлена против сильной интерпретации такого подхода: из того, что система успешно обрабатывает символы и выдаёт правильные ответы, ещё не следует, что она понимает значения этих символов.

=== Сильный и слабый искусственный интеллект ===

В статье 1980 года Сёрл различал слабый и сильный искусственный интеллект.<ref name="Searle1980" /> Под слабым ИИ понимается использование компьютеров как инструментов для моделирования и исследования познавательных процессов. В этом смысле компьютерная программа может быть полезной моделью мышления, памяти, рассуждения или языкового поведения.

Сильный ИИ, в интерпретации Сёрла, утверждает большее: правильно запрограммированный компьютер не просто моделирует разум, а сам обладает разумом. Согласно этому тезису, программа при соответствующей реализации может иметь когнитивные состояния в буквальном смысле, например понимать текст, иметь убеждения или намерения.

Китайская комната направлена прежде всего против сильного ИИ. Основной вывод Сёрла состоит в том, что выполнение программы, понимаемой как формальная обработка символов, недостаточно для возникновения понимания.

== Описание мысленного эксперимента ==

В мысленном эксперименте Сёрл предлагает представить человека, который не знает китайского языка. Этот человек находится в комнате и получает на вход наборы китайских иероглифов. В комнате находится инструкция, написанная на языке, который человек понимает. Инструкция задаёт правила сопоставления одних китайских символов с другими. Следуя этим правилам, человек выдаёт наружу новые наборы китайских символов.

Для внешнего наблюдателя ответы комнаты могут выглядеть как осмысленное общение на китайском языке. Если инструкция достаточно сложна и полна, поведение комнаты может быть неотличимо от поведения человека, действительно понимающего китайский. Однако человек внутри комнаты, согласно условию эксперимента, не понимает китайские символы. Он распознаёт их только по форме и применяет формальные правила замены.

Сёрл использует эту ситуацию как аналогию с компьютерной программой. Входные символы соответствуют данным, инструкция соответствует программе, человек в комнате соответствует устройству, выполняющему программу, а выходные символы соответствуют результату вычисления. Внешнее сходство с пониманием, по Сёрлу, не доказывает наличия понимания внутри системы.

=== Логика рассуждения Сёрла ===

Логика аргумента строится на аналогии между человеком в комнате и компьютером, выполняющим программу. Компьютер, как и человек в комнате, оперирует формальными структурами. Символы различаются для него по форме, позиции и допустимым преобразованиям, но не по значению. Если человек в комнате, выполняя все правила, не понимает китайского, то, по Сёрлу, и компьютер, выполняющий аналогичную программу, не понимает китайского только в силу выполнения этой программы.

Из этого следует, что поведенческий успех системы не равен наличию понимания. Программа может обеспечить правильные ответы, но сами правила обработки не объясняют, как возникает значение. Поэтому китайская комната служит критикой тезиса, согласно которому достаточно описать интеллект как вычисление над символами.

== Аргумент против сильного искусственного интеллекта ==

Аргумент Сёрла направлен против утверждения, что формальная программа является достаточным основанием для ментальных состояний. В более широком смысле он затрагивает вычислительную теорию разума, согласно которой психические процессы могут быть полностью объяснены как вычислительные процессы.

Сёрл признаёт, что программа может моделировать понимание. Однако моделирование и наличие моделируемого свойства, по его мнению, не тождественны. Компьютерная модель пищеварения не переваривает пищу, а компьютерная модель дождя не делает предметы мокрыми. Аналогично, компьютерная модель понимания не обязательно понимает.

Главный философский вопрос состоит в том, является ли программа только формальным описанием поведения или достаточным носителем ментальных состояний. Сёрл утверждает, что программа задаёт синтаксические операции, а понимание требует семантического содержания и интенциональности.

=== Строгая схема аргумента ===

Аргумент можно представить в следующей форме:

# Компьютерная программа задаёт формальные правила обработки символов.
# Формальные правила обработки символов являются синтаксическими.
# Понимание естественного языка требует семантики, то есть владения значением выражений.
# В китайской комнате человек может выполнять все синтаксические правила, необходимые для правильных ответов на китайском языке, но не понимать китайский язык.
# Следовательно, выполнение программы само по себе не является достаточным условием понимания.
# Поэтому сильный ИИ в форме тезиса «правильно запрограммированная система тем самым обладает пониманием» является необоснованным.

Такая схема не доказывает, что искусственные системы в принципе не могут иметь ментальных состояний. Она направлена против достаточности программы как таковой. Именно этот пункт отличает аргумент Сёрла от общего скептицизма относительно ИИ.

== Основные возражения ==

После публикации статья Сёрла сопровождалась многочисленными комментариями и ответами, поскольку была опубликована в журнале Behavioral and Brain Sciences, формат которого предполагает открытые комментарии специалистов.<ref name="Searle1980" /> Наиболее известные возражения касаются того, где именно следует искать понимание: в отдельном человеке, в системе в целом, в воплощённом агенте, в симуляции мозга или в наблюдаемом поведении.

=== Ответ системы ===

Ответ системы утверждает, что Сёрл ошибочно приписывает отсутствие понимания всей системе на основании того, что отдельный человек внутри комнаты не понимает китайского языка. Согласно этому возражению, понимать может не человек, а система в целом: человек, правила, база данных, процедуры обработки и память. Отдельный элемент системы не обязан обладать свойством, которым обладает вся система.

Это возражение направлено на переход от утверждения «человек не понимает китайский» к утверждению «система не понимает китайский». Сторонники ответа системы считают, что такой переход не является очевидным. Например, отдельный нейрон не понимает предложения, но мозг как система может быть носителем понимания.

Ответ Сёрла состоит в том, что даже если человек запомнит все правила, будет выполнять их без внешних записей и тем самым «внутренне» реализует всю систему, он всё равно не станет понимать китайский язык. Следовательно, по Сёрлу, добавление системного уровня не устраняет различие между синтаксической обработкой и семантическим пониманием.<ref name="ColeSEP">Cole D. The Chinese Room Argument // Stanford Encyclopedia of Philosophy. URL: https://plato.stanford.edu/entries/chinese-room/</ref>

=== Ответ робота ===

Ответ робота утверждает, что проблема китайской комнаты возникает из-за изоляции системы от внешнего мира. Если программу поместить в робота, снабжённого камерами, датчиками, моторикой и способностью действовать в среде, символы могут получить связь с объектами и ситуациями. В таком случае система будет не только манипулировать знаками, но и соотносить их с восприятием и действием.

Это возражение приближает китайскую комнату к проблеме заземления символов. Символы в чисто формальной системе получают значение только через интерпретацию внешнего наблюдателя. Воплощённый агент, согласно ответу робота, может связывать символы с собственными сенсорными и моторными состояниями.

Сёрл отвечал, что добавление сенсоров и моторов само по себе не меняет принципиальной ситуации, если центральная система по-прежнему только обрабатывает формальные символы. В таком случае сенсорные данные становятся ещё одним видом входных символов, а моторные команды — ещё одним видом выходных символов. По Сёрлу, это не объясняет происхождение семантики, если вся внутренняя обработка остаётся синтаксической.

=== Ответ симуляции мозга ===

Ответ симуляции мозга утверждает, что обычная символическая программа может быть недостаточной для понимания, но достаточно точная симуляция мозга носителя китайского языка могла бы обладать пониманием. В этом возражении акцент переносится с абстрактной программы на воспроизведение причинной организации биологического мозга.

Сильная версия ответа предполагает, что если система воспроизводит функциональную структуру мозга на достаточном уровне детализации, то она должна обладать теми же ментальными свойствами. Такая позиция близка к некоторым формам функционализма, согласно которым психические состояния определяются не материалом носителя, а их причинно-функциональной ролью.

Сёрл отвечал, что симуляция процесса не тождественна самому процессу. По его мнению, симуляция нейронной активности не гарантирует появления понимания, если система по-прежнему реализует только формальную модель. Он сравнивал это с тем, что компьютерная симуляция пожара не производит настоящего тепла. Спор в этом пункте зависит от того, считать ли сознание и понимание функционально воспроизводимыми свойствами или свойствами, требующими определённой причинной реализации.

=== Ответ других умов ===

Ответ других умов связан с классической философской проблемой: ментальные состояния других людей недоступны непосредственному наблюдению. Понимание, убеждения и переживания других субъектов обычно приписываются на основании поведения, речи и контекста. Поэтому сторонники этого возражения считают, что требование Сёрла к машине может быть более строгим, чем критерии, применяемые к людям.

Если внешнее поведение человека служит основанием для вывода о понимании, то аналогичное поведение искусственной системы, согласно этому возражению, также может быть основанием для приписывания понимания. Иначе возникает асимметрия между оценкой людей и машин.

Ответ Сёрла состоит в том, что аргумент китайской комнаты не основан только на внешнем наблюдении. В мысленном эксперименте задана внутренняя информация: человек в комнате действительно не понимает китайский язык, хотя производит правильные ответы. Поэтому, по Сёрлу, пример показывает возможность расхождения между поведенческим успехом и пониманием. Из этого он делает вывод, что поведение само по себе не является достаточным доказательством семантического понимания.

== Китайская комната и современные языковые модели ==

С развитием [[Большая языковая модель|больших языковых моделей]] аргумент китайской комнаты снова стал использоваться в дискуссиях о машинном понимании. Прямое отождествление LLM с китайской комнатой требует осторожности: Сёрл обсуждал прежде всего символические программы с явно заданными правилами, тогда как современные языковые модели основаны на статистическом обучении и распределённых представлениях. Тем не менее общий вопрос остаётся близким: достаточно ли успешной обработки языковой формы для наличия значения и понимания.

=== Аргумент о форме и значении ===

Одна из современных форм этой дискуссии связана с различием между формой и значением. Эмили Бендер и Александр Коллер в статье «Climbing towards NLU: On Meaning, Form, and Understanding in the Age of Data» подчёркивают, что обучение на языковой форме не тождественно усвоению значения в полном смысле.<ref name="BenderKoller2020">Bender E. M., Koller A. Climbing towards NLU: On Meaning, Form, and Understanding in the Age of Data // Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. 2020. P. 5185–5198. DOI: 10.18653/v1/2020.acl-main.463.</ref>

В этом подходе языковая модель рассматривается как система, извлекающая закономерности из текстовых данных, но не обязательно имеющая доступ к внеязыковым ситуациям, намерениям говорящих и практическому контексту употребления. Такая позиция близка к интуиции китайской комнаты: система может успешно работать с формой выражений, но вопрос о принадлежности значения самой системе остаётся открытым.

=== Дискуссия о понимании в LLM ===

Современная дискуссия о понимании в больших языковых моделях неоднородна. Одни исследователи подчёркивают способность LLM к обобщению, переносу знаний, решению задач и использованию сложных языковых структур. Эти свойства могут рассматриваться как основания для функционального понимания термина «понимание».

Другие исследователи указывают на ограничения таких систем: отсутствие устойчивого заземления в физическом мире, зависимость от обучающих данных, возможность правдоподобных, но ложных ответов и слабость в задачах, требующих надёжной модели причинности. Мелани Митчелл и Дэвид Кракауэр описывают спор о понимании в LLM как открытую дискуссию, в которой разные стороны используют различные критерии понимания.<ref name="MitchellKrakauer2023">Mitchell M., Krakauer D. C. The Debate Over Understanding in AI’s Large Language Models // Proceedings of the National Academy of Sciences. 2023. Vol. 120, no. 13. DOI: 10.1073/pnas.2215907120.</ref>

=== Антропоморфизация языковых моделей ===

Отдельная проблема связана с языком описания LLM. В обычной речи о таких системах часто используются выражения «модель знает», «модель думает», «модель считает» или «модель понимает». Мюррей Шанахан указывает, что такие выражения могут быть удобными сокращениями, но несут риск антропоморфизации, то есть приписывания системе человеческих ментальных свойств без достаточного основания.<ref name="Shanahan2024">Shanahan M. Talking about Large Language Models // Communications of the ACM. 2024. Vol. 67, no. 2. P. 68–79. DOI: 10.1145/3624724.</ref>

В связи с китайской комнатой это означает, что успешное языковое поведение не снимает вопрос о наличии понимания. Для нейтрального описания LLM необходимо различать техническое устройство модели, её наблюдаемое поведение и философские утверждения о понимании.

== Значение аргумента ==

Китайская комната стала одним из наиболее известных аргументов в философии искусственного интеллекта и философии сознания. Её значение состоит в том, что она отделяет практическую способность системы имитировать понимание от философского вопроса о наличии семантики, интенциональности и ментальных состояний.

=== Отношение к тесту Тьюринга ===

Связь китайской комнаты с тестом Тьюринга состоит в обсуждении поведенческих критериев интеллекта. В статье «Computing Machinery and Intelligence» Алан Тьюринг предложил рассматривать вопрос о мышлении машин через «игру в имитацию», где оценивается способность машины вести диалог, неотличимый от человеческого.<ref name="Turing1950">Turing A. M. Computing Machinery and Intelligence // Mind. 1950. Vol. 59, no. 236. P. 433–460.</ref>

Китайская комната показывает возможное ограничение такого подхода. Даже если система производит ответы, которые внешне соответствуют пониманию, из этого, по Сёрлу, не следует, что система действительно понимает. Поэтому аргумент можно рассматривать как критику достаточности чисто поведенческого критерия для установления ментальных состояний.

При этом тест Тьюринга и китайская комната решают разные задачи. Тьюринг предлагал операциональный способ обсуждения машинного интеллекта, тогда как Сёрл анализировал условия семантического понимания. Поэтому китайская комната не обязательно опровергает тест Тьюринга как практический критерий поведения, но ставит под вопрос его философскую достаточность для вывода о понимании.

=== Связь с проблемой заземления символов ===

Китайская комната тесно связана с [[Проблема заземления символов|проблемой заземления символов]]. Эта проблема была сформулирована Стивеном Харнадом как вопрос о том, каким образом семантическая интерпретация формальной символьной системы может стать внутренней для самой системы, а не зависеть от значений, находящихся в сознании внешнего интерпретатора.<ref name="Harnad1990">Harnad S. The Symbol Grounding Problem // Physica D: Nonlinear Phenomena. 1990. Vol. 42, no. 1–3. P. 335–346. DOI: 10.1016/0167-2789(90)90087-6.</ref>

В китайской комнате символы остаются незаземлёнными для человека внутри комнаты. Они имеют значение для внешнего наблюдателя, знающего китайский язык, но не для системы, выполняющей формальные правила. Именно поэтому эксперимент иллюстрирует трудность перехода от синтаксической обработки к семантическому содержанию.

Проблема заземления символов особенно важна для современных дискуссий о воплощённом ИИ, робототехнике, мультимодальных моделях и агентных системах. Если символы или внутренние представления связаны с восприятием, действием и устойчивым взаимодействием со средой, возникает вопрос, может ли такая связь обеспечить значение, отсутствующее в чисто формальной обработке. Китайская комната не решает этот вопрос окончательно, но задаёт одну из его классических формулировок.

== См. также ==

* [[Проблема заземления символов]]
* [[Проблема фрейма]]
* [[Тест Тьюринга]]
* [[Гипотеза физической символьной системы]]
* [[Символический искусственный интеллект]]
* [[Большая языковая модель]]

== Примечания ==

<references />

== Литература ==

* Searle J. R. Minds, Brains, and Programs // Behavioral and Brain Sciences. 1980. Vol. 3, no. 3. P. 417–457.
* Turing A. M. Computing Machinery and Intelligence // Mind. 1950. Vol. 59, no. 236. P. 433–460.
* Newell A., Simon H. A. Computer Science as Empirical Inquiry: Symbols and Search // Communications of the ACM. 1976. Vol. 19, no. 3. P. 113–126.
* Cole D. The Chinese Room Argument // Stanford Encyclopedia of Philosophy.
* Hauser L. Chinese Room Argument // Internet Encyclopedia of Philosophy.
* Harnad S. The Symbol Grounding Problem // Physica D: Nonlinear Phenomena. 1990. Vol. 42, no. 1–3. P. 335–346.
* Bender E. M., Koller A. Climbing towards NLU: On Meaning, Form, and Understanding in the Age of Data // Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. 2020. P. 5185–5198.
* Mitchell M., Krakauer D. C. The Debate Over Understanding in AI’s Large Language Models // Proceedings of the National Academy of Sciences. 2023. Vol. 120, no. 13.
* Shanahan M. Talking about Large Language Models // Communications of the ACM. 2024. Vol. 67, no. 2. P. 68–79.

[[Категория:Искусственный интеллект]]
[[Категория:Философия искусственного интеллекта]]

Самостоятельное обучение

2026-06-18T21:18:01Z

Описание изменений: Написание статьи с использованием LLM

{{well|Статья написана с использованием LLM '''Gemini 3.1 Pro''' и проверена участником [[Участник:Vsevolod Peretiatko|Vsevolod Peretiatko]] 01:18, 19 июня 2026 (MSD)}}

'''Самостоятельное обучение''' (англ. ''Self-Supervised Learning'', ''SSL''; в русскоязычной академической литературе также применяется термин ''самоконтролируемое обучение'') — парадигма [[Машинное обучение|машинного обучения]], в которой обучающие сигналы (целевые метки) извлекаются автоматически из самой структуры неразмеченных входных данных путем формирования и решения '''детерминированных вспомогательных задач''' (англ. ''pretext tasks'').

В общепринятой таксономии методов анализа данных самостоятельное обучение занимает промежуточное положение между [[Обучение без учителя|обучением без учителя]] и [[Обучение с учителем|обучением с учителем]]. С одной стороны, методы SSL не требуют привлечения человека-разметчика или экспертных оценок, что преодолевает ключевое ограничение классического обучения с учителем — высокую стоимость и плохую масштабируемость ручной разметки. С другой стороны, в отличие от классического обучения без учителя (такого как [[Кластеризация|кластеризация]] или [[Метод главных компонент|снижение размерности]]), вычислительный граф, архитектуры моделей и [[Функция потерь|функции потерь]] заимствуются из аппарата непрерывной оптимизации, характерного для задач обучения с учителем.

Основная цель самостоятельного обучения заключается в построении универсальных, информационно богатых и устойчивых скрытых представлений (англ. ''representations'', эмбеддингов), отражающих фундаментальные геометрические, топологические или семантические свойства объектов. Полученный в результате предобучения (англ. ''pre-training'') кодировщик используется в качестве базовой модели (англ. ''foundation model'') для последующего решения широкого спектра целевых прикладных задач (англ. ''downstream tasks'') посредством [[Тонкая настройка|тонкой настройки]] (''fine-tuning'') или линейного зондирования (''linear probing'').

== Математическая постановка задачи ==

=== Формализация входного пространства и аугментаций ===
Пусть задана выборка неразмеченных объектов <tex>X = \{x_i\}_{i=1}^N</tex>, где каждый объект <tex>x_i \in \mathcal{X}</tex> представляет собой элемент некоторого исходного пространства (например, пространства цифровых изображений, текстовых последовательностей или топологических графов), распределенный в соответствии с неизвестной истинной плотностью распределения <tex>p(\mathbf{x})</tex>.

Определим параметрическое семейство стохастических преобразований (аугментаций) <tex>\mathcal{T} = \{T_\omega \mid \omega \sim \Omega\}</tex>, отображающих пространство <tex>\mathcal{X}</tex> в себя и сохраняющих семантическое инвариантное ядро объекта. Для каждого исходного объекта <tex>x_i</tex> путем независимой генерации случайных параметров <tex>\omega_1, \omega_2 \sim \Omega</tex> формируются различные модифицированные версии — «виды» (англ. ''views''):
<tex>\tilde{x}_i^{(1)} = T_{\omega_1}(x_i), \quad \tilde{x}_i^{(2)} = T_{\omega_2}(x_i)</tex>

=== Компоненты архитектуры совместного встраивания ===
Математическая архитектура современных SSL-моделей (в частности, архитектур совместного встраивания) представляется в виде композиции двух дифференцируемых отображений:
# '''Кодировщик (энкодер)''' <tex>f_\theta: \mathcal{X} \to \mathbb{R}^d</tex>, параметризованный вектором весов <tex>\theta</tex>, переводящий входной объект в низкоразмерный вектор скрытого представления (эмбеддинг): <tex>h_i^{(1)} = f_\theta(\tilde{x}_i^{(1)})</tex>.
# '''Проектор''' <tex>g_\phi: \mathbb{R}^d \to \mathbb{R}^k</tex>, параметризованный вектором весов <tex>\phi</tex>, отображающий скрытое представление в инвариантное подпространство меньшей или равной размерности, где вычисляется суррогатная целевая функция: <tex>z_i^{(1)} = g_\phi(h_i^{(1)})</tex>.

Использование проектора необходимо для предотвращения потери значимой информации в основном представлении <tex>h_i</tex> из-за чрезмерного сжатия данных под специфику вспомогательной задачи.

=== Оптимизационный функционал суррогатного риска ===
Задача самостоятельного обучения формулируется как минимизация эмпирического риска для суррогатной функции потерь <tex>\mathcal{L}_{\text{pretext}}</tex> на всем множестве доступных неразмеченных данных:
<tex>\min_{\theta, \phi} \frac{1}{N} \sum_{i=1}^N \mathbb{E}_{\omega_1, \omega_2} \left[ \mathcal{L}_{\text{pretext}} \left( g_\phi(f_\theta(T_{\omega_1}(x_i))), \, g_\phi(f_\theta(T_{\omega_2}(x_i))), \, \mathcal{C}_i \right) \right]</tex>
где <tex>\mathcal{C}_i</tex> обозначает контекстное множество, которое в зависимости от парадигмы обучения может включать в себя представления других объектов выборки (негативные примеры) либо внутренние ограничения на геометрию признакового пространства.

=== Геометрические метрики Ванга — Изолы ===

[[Изображение:Wang_isola_geometry.svg|thumb|center|750px|Рис. 1. Геометрическая интерпретация метрик Ванга — Изолы на единичной гиперсфере: минимизация расстояния между позитивными парами (Alignment) и равномерное распределение всех представлений случайных объектов выборки (Uniformity) для предотвращения скрытого коллапса.]]

Для глубокого анализа геометрии пространства представлений контрастивного обучения оптимизируемый функционал декомпозируют на две составляющие (метрики Ванга — Изолы)<ref>{{статья|автор=Wang T., Isola P.|заглавие=Understanding Contrastive Representation Learning through Alignment and Uniformity on the Hypersphere|издание=International Conference on Machine Learning (ICML)|год=2020|страницы=9929–10339}}</ref>:

* '''Выравнивание (Alignment):''' Требует, чтобы представления позитивных пар (аугментаций одного объекта) находились близко друг к другу:
:<tex>\mathcal{L}_{\text{align}}(\theta, \phi) = \mathbb{E}_{(x, x^+) \sim p_{\text{pos}}} \left[ \|g_\phi(f_\theta(x)) - g_\phi(f_\theta(x^+))\|^2 \right]</tex>
* '''Равномерность (Uniformity):''' Требует, чтобы представления случайных не связанных между собой объектов были равномерно распределены по единичной гиперсфере, максимизируя энтропию распределения представлений и сохраняя как можно больше информации:
:<tex>\mathcal{L}_{\text{uniform}}(\theta, \phi) = \log \mathbb{E}_{x, y \sim p(\mathbf{x})} \left[ \exp\left(-2\|g_\phi(f_\theta(x)) - g_\phi(f_\theta(y))\|^2\right) \right]</tex>

== Информационно-теоретические основы ==

=== Гипотеза многообразия и информационное узкое место ===
Теоретическое обоснование эффективности самостоятельного обучения, в частности методов совместного встраивания (англ. ''joint-embedding methods''), опирается на принципы [[Теория информации|теории информации]] и гипотезу многообразия информации (Multi-View Information Bottleneck). Успешность выделения устойчивых признаков кодировщиком <tex>f_\theta</tex> объясняется максимизацией [[Взаимная информация|взаимной информации]] между различными зашумленными версиями одного и того же истинного объекта при одновременном отсечении несущественного шума конкретной аугментации.

Пусть <tex>X^{(1)}</tex> и <tex>X^{(2)}</tex> — случайные величины, соответствующие двум различным аугментациям одного скрытого объекта. Их взаимная информация определяется через [[Энтропия|энтропию]] как:
<tex>I(X^{(1)}; X^{(2)}) = \mathbb{E}_{p(x^{(1)}, x^{(2)})} \left[ \log \frac{p(x^{(1)}, x^{(2)})}{p(x^{(1)})p(x^{(2)})} \right]</tex>

Согласно принципу информационного узкого места для нескольких видов (Multi-View Information Bottleneck), идеальное представление <tex>Z</tex> должно максимизировать информацию о зависимой переменной (втором виде) и минимизировать информацию об исходном объекте, избыточную для предсказания второго вида:
<tex>\max I(Z; X^{(2)})</tex> при условии <tex>I(Z; X^{(1)}) \le R</tex>

=== Вариационные нижние оценки и функционал InfoNCE ===
Поскольку прямое вычисление плотностей распределения <tex>p(x^{(1)}, x^{(2)})</tex> в пространствах высокой размерности вычислительно не реализуемо, для максимизации взаимной информации применяется подход, основанный на вариационных нижних оценках (англ. ''variational lower bounds''). Наиболее распространенной математической формой такой оценки является функционал '''InfoNCE''' (Information Noise-Contrastive Estimation)<ref>{{статья|автор=Oord A. v. d., Li Y., Vinyals O.|заглавие=Representation Learning with Contrastive Predictive Coding|издание=arXiv preprint arXiv:1807.03748|год=2018}}</ref>, представляющий собой многоклассовую контрастивную функцию потерь.

Пусть в рамках одного мини-батча размера <tex>B</tex> для фиксированного положительного примера <tex>z_i^{(2)} = g_\phi(f_\theta(T_{\omega_2}(x_i)))</tex> (представления второй аугментации того же объекта) задано контекстное множество из <tex>2B - 2</tex> негативных примеров (представлений всех остальных аугментаций других объектов из текущего мини-батча). Тогда функция потерь InfoNCE для якорного объекта <tex>z_i^{(1)}</tex> имеет вид:
<tex>\mathcal{L}_{\text{InfoNCE}}^{(i)} = - \log \frac{\exp\left(\frac{s(z_i^{(1)}, z_i^{(2)})}{\tau}\right)}{\exp\left(\frac{s(z_i^{(1)}, z_i^{(2)})}{\tau}\right) + \sum_{j \neq i} \exp\left(\frac{s(z_i^{(1)}, z_j^{(1)})}{\tau}\right) + \sum_{j \neq i} \exp\left(\frac{s(z_i^{(1)}, z_j^{(2)})}{\tau}\right)}</tex>
где:
* <tex>s(z_a, z_b) = \frac{z_a^T z_b}{\|z_a\| \|z_b\|}</tex> — косинусная мера сходства векторов в нормированном евклидовом пространстве;
* <tex>\tau \in \mathbb{R}^+</tex> — скалярный параметр температуры.

=== Градиентная динамика и влияние размера батча ===
Изменение <tex>\tau</tex> управляет градиентной динамикой: малые значения температуры заставляют лосс функционировать как жесткий селектор сложных негативных примеров (Hard Negative Miner), наказывая модель за малейшее сближение векторов разных классов.

Математически доказывается, что минимизация суммарной функции потерь по мини-батчу <tex>\mathcal{L}_{\text{InfoNCE}} = \frac{1}{B}\sum_{i=1}^B \mathcal{L}_{\text{InfoNCE}}^{(i)}</tex> эквивалентна максимизации нижней границы взаимной информации между скрытыми представлениями:
<tex>I(Z^{(1)}; Z^{(2)}) \ge \log(B) - \mathcal{L}_{\text{InfoNCE}}</tex>

Таким образом, увеличение размера мини-батча <tex>B</tex> при оптимизации функционала InfoNCE гарантирует более строгую и точную аппроксимацию истинной взаимной информации, что непосредственно транслируется в повышение обобщающей способности кодировщика.

== Классические эвристические задачи (Pretext Tasks) и контекстное обучение ==

=== Пространственный и семантический контекст в компьютерном зрении ===
Исторически первыми успешными методами самостоятельного обучения в [[Компьютерное зрение|компьютерном зрении]] стали эвристические задачи (англ. ''pretext tasks'')<ref>{{статья|автор=Doersch C., Gupta A., Efros A. A.|заглавие=Unsupervised Visual Representation Learning by Context Prediction|издание=Proceedings of the IEEE International Conference on Computer Vision (ICCV)|год=2015|страницы=1422–1430}}</ref>, основанные на пространственном и семантическом контексте изображений. Их суть заключалась в намеренном сокрытии или искажении части входных данных с последующим обучением [[Нейронная сеть|нейронной сети]] восстанавливать исходное состояние.

К числу фундаментальных классических подходов относятся:
* '''Предсказание взаимного расположения (Relative Position) и пазлы (Jigsaw Puzzles):''' Модель получает фрагменты одного изображения и должна предсказать их правильное пространственное расположение относительно друг друга<ref>{{статья|автор=Noroozi M., Favaro P.|заглавие=Unsupervised Learning of Visual Representations by Solving Jigsaw Puzzles|издание=European Conference on Computer Vision (ECCV)|год=2016}}</ref>. Для решения этой задачи многослойный [[Перцептрон|перцептрон]] поверх сверточных признаков вынужден выучивать формы объектов, границы и их семантические связи (например, что голова кошки находится над туловищем).
* '''Предсказание угла поворота (Rotation Prediction):''' Входное изображение случайно поворачивается на один из кратных углов (0°, 90°, 180°, 270°). Сеть обучается классифицировать угол поворота как задачу многоклассовой классификации<ref>{{статья|автор=Gidaris S., Singh P. N., Komodakis N.|заглавие=Unsupervised Representation Learning by Predicting Image Rotations|издание=International Conference on Learning Representations (ICLR)|год=2018}}</ref>. Успешность метода обусловлена тем, что для определения правильной ориентации модель должна распознать объекты на изображении и понимать их естественное положение в реальном мире.
* '''Колоризация (Colorization):''' Перевод изображения из одноканального спектра (оттенки серого) в цветовое пространство CIE LAB<ref>{{статья|автор=Zhang R., Isola P.|заглавие=Colorful Image Colorization|издание=European Conference on Computer Vision (ECCV)|год=2016}}</ref>. Сеть получает L-канал (яркость) и предсказывает a и b каналы (цветность). Это требует глубокого понимания текстур и объектной семантики (небо синее, листва зеленая).

[[Изображение:Pretext_tasks.svg|thumb|center|750px|Рис. 2. Базовые классические вспомогательные задачи (Pretext Tasks) в компьютерном зрении: разбиение на пазлы (Jigsaw Puzzles), предсказание угла поворота (Rotation Prediction) и колоризация в цветовом пространстве LAB.]]

=== Дистрибутивная семантика в обработке естественного языка (NLP) ===
В [[Обработка естественного языка|обработке естественного языка (NLP)]] классическим примером контекстного обучения является архитектура '''Word2Vec'''<ref>{{статья|автор=Mikolov T., Chen K., Corrado G., Dean J.|заглавие=Efficient Estimation of Word Representations in Vector Space|издание=arXiv preprint arXiv:1301.3781|год=2013}}</ref>. Модели Continuous Bag-of-Words (CBOW) и Skip-gram формируют плотные векторные представления слов (эмбеддинги) на основе локального контекста слова в окне фиксированного размера, опираясь на дистрибутивную семантику («слово характеризуется своим окружением»).

=== Недостатки подходов: проблема «коротких путей» (Shortcuts) ===
Несмотря на концептуальную простоту, эвристические задачи обладали существенным недостатком: нейросети часто находили «короткие пути» (англ. ''shortcuts''), опираясь на низкоуровневые артефакты (например, хроматические аберрации объектива на краях пазлов или текстурные паттерны), вместо изучения обобщаемой высокоуровневой семантики.

== Современные парадигмы предобучения для изображений ==

Преодоление ограничений эвристических задач привело к доминированию архитектур совместного встраивания (Joint-Embedding Architectures). Их цель — сделать скрытые представления различных аугментаций одного объекта инвариантными. Эта парадигма математически разделяется на контрастивные и неконтрастивные методы.

=== Контрастивное обучение (Contrastive Learning) ===
Методы этого семейства явно «отталкивают» представления разных изображений (негативные примеры) в метрическом пространстве, одновременно «притягивая» аугментации одного изображения.
* '''MoCo (Momentum Contrast):''' Решает проблему вычислительной сложности экстремально больших мини-батчей путем введения динамического словаря негативных примеров (очереди) и «импульсного кодировщика» (англ. ''momentum encoder'')<ref>{{статья|автор=He K., Fan H., Wu Y., Xie S., Girshick R.|заглавие=Momentum Contrast for Unsupervised Visual Representation Learning|издание=Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)|год=2020|страницы=9729–9738}}</ref>. Веса импульсного кодировщика <tex>\theta_k</tex> обновляются не градиентным спуском, а как экспоненциальное скользящее среднее (EMA) весов основного обучаемого кодировщика <tex>\theta_q</tex>:
:<tex>\theta_k \leftarrow m \theta_k + (1 - m) \theta_q</tex>
:где <tex>m \in [0, 1)</tex> — коэффициент импульса (обычно 0.999), что обеспечивает стабильность репрезентаций негативных признаков в словаре на протяжении эпох.
* '''SimCLR:''' Доказал, что контрастивное обучение эффективно работает без банка памяти, если использовать большие мини-батчи (до 8192 изображений) и агрессивные композиции аугментаций (особенно критичным оказалось сочетание случайного кадрирования и искажения цвета)<ref>{{статья|автор=Chen T., Kornblith S., Norouzi M., Hinton G.|заглавие=A Simple Framework for Contrastive Learning of Visual Representations (SimCLR)|издание=International Conference on Machine Learning (ICML)|год=2020|страницы=1597–1607}}</ref>.

[[Изображение:Simclr_vs_byol.svg|thumb|center|750px|Рис. 3. Архитектурное сравнение систем совместного встраивания: контрастивный подход SimCLR (явное отталкивание от негативного пула батча с лоссом InfoNCE) и неконтрастивный подход BYOL (использование асимметричного предиктора, блокировки градиента stop-gradient и EMA-обновления весов target-сети для защиты от коллапса).]]

=== Неконтрастивные методы (Negative-Free Methods) ===
Зависимость от сложных словарей негативных примеров привела к созданию методов, работающих исключительно с позитивными парами. Их главная фундаментальная проблема — риск '''коллапса представлений''' (англ. ''representation collapse''), когда кодировщик вырождается в тривиальное решение, выдавая константный вектор для любых входов.
* '''BYOL (Bootstrap Your Own Latent):''' Предотвращает коллапс за счет архитектурной и градиентной асимметрии. Модель состоит из online-сети и target-сети (обновляемой через EMA)<ref>{{статья|автор=Grill J.-B., Strub F., Altché F., Tallec C., Richemond P., Buchatskaya E., Doersch C., Pires B. A., Guo Z., Azar M. G., Piot B., Kavukcuoglu K., Munos R., Valko M.|заглавие=Bootstrap Your Own Latent: A New Approach to Self-Supervised Learning (BYOL)|издание=Advances in Neural Information Processing Systems (NeurIPS)|год=2020|том=33|страницы=21271–21284}}</ref>. В online-сеть добавляется дополнительный модуль-предиктор, а на градиенты от target-сети ставится жесткая блокировка (''stop-gradient''). Online-сеть обучается предсказывать выход target-сети, что не позволяет градиентам сойтись к константе.
* '''Barlow Twins:''' Решает проблему коллапса с позиций теории информации. Вместо измерения косинусного расстояния между эмбеддингами, метод вычисляет кросс-корреляционную матрицу <tex>\mathcal{C}</tex> признаков двух аугментаций и штрафует сеть за отличие этой матрицы от единичной <tex>\mathcal{I}</tex>:
:<tex>\mathcal{L}_{\text{BT}} = \sum_i (1 - \mathcal{C}_{ii})^2 + \lambda \sum_i \sum_{j \neq i} \mathcal{C}_{ij}^2</tex>
:Диагональные элементы (первое слагаемое) делают признаки инвариантными к аугментациям, а внедиагональные (второе слагаемое) минимизируют информационную избыточность, декоррелируя нейроны<ref>{{статья|автор=Zbontar J., Jing L., Misra I., LeCun Y., Deny S.|заглавие=Barlow Twins: Self-Supervised Learning via Redundancy Reduction|издание=International Conference on Machine Learning (ICML)|год=2021|страницы=12310–12320}}</ref>.

== Маскированное моделирование: от BERT к Vision Transformers (ViT) ==

Появление архитектуры [[Трансформер (архитектура нейронных сетей)|Трансформер]] привело к доминированию парадигмы '''маскированного моделирования''' (англ. ''Masked Modeling''), которая стала стандартом в NLP и активно вытесняет контрастивные подходы в задачах компьютерного зрения.

=== Masked Language Modeling (MLM) в BERT ===
Классический [[BERT]] обучается путем случайного маскирования части токенов во входной последовательности (стандартно 15%)<ref>{{статья|автор=Devlin J., Chang M.-W., Lee K., Toutanova K.|заглавие=BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding|издание=Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (NAACL)|год=2019|страницы=4171–4186}}</ref>. Модель предсказывает оригинальные токены (задача классификации словаря) на основе глубокого двунаправленного контекста. В отличие от авторегрессионных моделей (семейство [[GPT]]), предсказывающих следующее слово строго слева направо, MLM позволяет трансформеру учитывать полный контекст с обеих сторон. Оптимизируемая функция — [[Перекрестная энтропия|кросс-энтропия]] между предсказанным распределением вероятностей и one-hot вектором истинного токена.

=== Перенос в зрение и проблема дискретизации: BEiT ===
Адаптация MLM для изображений долгое время оставалась сложной задачей из-за непрерывной природы пикселей (они не образуют дискретный семантический словарь, как слова) и высокой пространственной избыточности визуальных данных (пропущенный пиксель легко интерполируется из соседних).
* '''BEiT (Bidirectional Encoder representation from Image Transformers):''' Решил проблему непрерывности путем предварительной токенизации изображения с помощью дискретного вариационного автокодировщика (dVAE)<ref>{{статья|автор=Bao H., Dong L., Piao S., Wei F.|заглавие=BEiT: BERT Pre-Training of Image Transformers|издание=International Conference on Learning Representations (ICLR)|год=2022}}</ref>. Изображение разбивается на патчи, каждый из которых кодируется в дискретный «визуальный токен». Трансформер обучается предсказывать токены замаскированных патчей строго по аналогии с NLP.

=== Асимметричные маскированные автокодировщики (MAE) ===
* '''Masked Autoencoders (MAE):''' Упростил парадигму, отказавшись от визуальных токенов в пользу прямого предсказания сырых пикселей, и решил проблему избыточности. Ключевые архитектурные находки MAE<ref>{{статья|автор=He K., Chen X., Xie S., Li Y., Dollár P., Girshick R.|заглавие=Masked Autoencoders Are Scalable Vision Learners|издание=Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)|год=2022|страницы=16000–16009}}</ref>:
# '''Экстремально высокая доля маскирования:''' скрывается до 75–80% патчей изображения. Это заставляет модель не просто сглаживать соседние пиксели, а выучивать сложную геометрию объектов, глобальный контекст и семантику сцены.
# '''Строгая асимметрия архитектуры:''' тяжелый Трансформер-кодировщик обрабатывает только видимые (не замаскированные) патчи, что радикально (в 3–4 раза) снижает вычислительные затраты. Легкий декодер получает эмбеддинги видимых патчей и добавляет обучаемые токены масок (mask tokens), восстанавливая исходные значения пикселей с минимизацией среднеквадратичной ошибки (MSE):
:<tex>\mathcal{L}_{\text{MAE}} = \frac{1}{|M|} \sum_{i \in M} \| y_i - \hat{y}_i \|^2</tex>
:где <tex>M</tex> — множество индексов замаскированных патчей, <tex>y_i</tex> — значения пикселей оригинального патча, <tex>\hat{y}_i</tex> — предсказание декодера.

[[Изображение:Mae_architecture.svg|thumb|center|750px|Рис. 4. Функциональный конвейер Masked Autoencoder (MAE): из входного изображения удаляется до 75-80% патчей, тяжелый ViT-кодировщик извлекает признаки только из видимой части, а легкий ViT-декодер реконструирует исходные пиксели на основе скрытых векторов и маска-токенов.]]

== Динамика оптимизации и проблема коллапса размерности ==

Фундаментальной математической проблемой в методах совместного встраивания является '''коллапс представлений''' (англ. ''representation collapse''). Теоретический анализ выделяет два различных режима этого явления:

=== Режимы вырождения представлений ===
# '''Полный коллапс (Complete Collapse):''' Кодировщик <tex>f_\theta</tex> находит тривиальное глобальное решение, отображая абсолютно все входные объекты в одну и ту же константную точку пространства <tex>\mathbf{c} \in \mathbb{R}^d</tex>. Эмпирический риск падает до нуля (разница между аугментациями исчезает), но признаки теряют любую дискриминативную силу.
# '''Коллапс размерности или коллапс ранга (Dimensional/Rank Collapse):''' Более скрытая форма вырождения. Векторы представлений не сливаются в одну точку, но располагаются в низкоразмерном подпространстве исходного пространства <tex>\mathbb{R}^d</tex>. Математически это означает, что матрица ковариации признаков становится вырожденной (ее ранг <tex>r \ll d</tex>). В результате информационная емкость вектора используется крайне неэффективно.

=== Механизмы стабилизации и предотвращения коллапса ===
В контрастивном обучении (SimCLR, MoCo) полный коллапс предотвращается явно: знаменатель в формуле InfoNCE с негативными примерами генерирует градиенты, расталкивающие точки в пространстве. В неконтрастивных алгоритмах используются иные архитектурные и математические механизмы:
* '''Асимметрия и блокировка градиента (Stop-gradient):''' В методе SimSiam<ref>{{статья|автор=Chen X., He K.|заглавие=Exploring Simple Siamese Representation Learning|издание=Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)|год=2021|страницы=15750–15758}}</ref> показано, что введение несимметричного модуля-предиктора и блокировка градиентов в одной из ветвей сети работает как форма альтернирующей оптимизации (подобно EM-алгоритму). Модель поочередно оптимизирует представления и подстраивает проектор, что не позволяет градиентам мгновенно сойтись к константе.
* '''Явная регуляризация ковариации (Explicit Regularization):''' Методы вроде VICReg<ref>{{статья|автор=Bardes A., Ponce J., LeCun Y.|заглавие=VICReg: Variance-Invariance-Covariance Regularization for Self-Supervised Learning|издание=International Conference on Machine Learning (ICLR)|год=2022}}</ref> и Barlow Twins напрямую модифицируют функцию потерь, вводя штрафы на вырождение дисперсии (Variance) каждого отдельного признака (нейрона) и минимизируя ковариацию (Covariance) между различными признаками, принудительно поддерживая матрицу ковариации близкой к полноранговой.
* '''Неявная регуляризация SGD и Batch Normalization:''' [[Стохастический градиентный спуск]] (SGD) в сочетании с нормализацией по мини-батчу работает как неявный декоррелятор. Центрирование данных по батчу не позволяет всем векторам сместиться в одну точку, а стохастический шум препятствует преждевременному схлопыванию подпространств.

== SSL в задачах на графах (Graph Representation Learning) ==

Парадигма самостоятельного обучения критически важна для данных со сложной топологической структуру (молекулярные графы, социальные сети, сети цитирований), где разметка узлов или графов целиком требует дорогостоящей экспертизы. Задача заключается в получении плотных эмбеддингов с использованием [[Графовые нейронные сети|графовых нейронных сетей (GNN)]].

=== Аугментации на топологии графа ===
В отличие от непрерывных изображений, графы требуют дискретных возмущений структуры. Типичные преобразования включают:
* '''Удаление ребер (Edge dropping):''' Случайное обнуление элементов матрицы смежности <tex>A</tex>.
* '''Маскирование признаков узлов (Node feature masking):''' Сокрытие или добавление шума в матрицу признаков узлов <tex>X</tex>.
* '''Выделение подграфов (Subgraph sampling):''' Извлечение локального контекста узла с помощью случайных блужданий (Random Walks).

[[Изображение:Graph_ssl_augmentations.svg|thumb|center|750px|Рис. 5. Дискретные стохастические преобразования неевклидовых данных в графовом SSL: случайное удаление ребер из топологической матрицы смежности, маскирование признаковых матриц узлов и локальное сэмплирование подграфов методами случайных блужданий.]]

=== Эволюция графовых SSL-моделей ===
* '''Контрастивные методы (DGI, GraphCL):''' Исторически первым подходом стал алгоритм '''Deep Graph Infomax (DGI)'''<ref>{{статья|автор=Veličković P., Fedus W., Hamilton W. L., Liò P., Bengio Y., Hjelm R. D.|заглавие=Deep Graph Infomax|издание=International Conference on Machine Learning (ICLR)|год=2019}}</ref>. Он обучает дискриминатор максимизировать взаимную информацию между локальным представлением узла <tex>h_i</tex> и глобальным вектором всего графа <tex>\mathbf{s}</tex>, отличая истинные пары от искаженных (полученных из графа с перемешанными узлами). Более поздний '''GraphCL''' перенес логику SimCLR на графы, применяя различные графовые аугментации и оптимизируя InfoNCE.
* '''Неконтрастивные графовые методы (BGRL):''' Метод Bootstrapped Graph Representation Learning<ref>{{статья|автор=Thakoor S., Corella C., Pugatch T., Veličković P.|заглавие=Bootstrapped Representation Learning on Graphs|издание=ICLR 2021 Workshop on Geometrical and Topological Representation Learning|год=2021}}</ref> адаптировал парадигму BYOL для графов. Поскольку генерация и обработка негативных графов-примеров вычислительно избыточна, BGRL использует две GNN (онлайн и целевую, обновляемую через экспоненциальное скользящее среднее) и обучается только на позитивных парах, что делает его крайне масштабируемым.
* '''Графовое маскированное моделирование (GraphMAE):''' GraphMAE<ref>{{статья|автор=Hou Z., Liu X., Cen Y., Dong Y., Yang H., Wang C., Tang J.|заглавие=GraphMAE: Self-Supervised Masked Graph Autoencoders|издание=Proceedings of the 28th ACM SIGKDD Conference on Knowledge Discovery and Data Mining (KDD)|год=2022|страницы=594–604}}</ref> маскирует признаки узлов и использует GNN-декодер для их восстановления. Для предотвращения тривиального копирования соседей метод использует функцию потерь, основанную на косинусном расстоянии (Scaled Cosine Error), а не стандартную MSE.

== Методология применения и downstream-валидация ==

Самостоятельное обучение не является самоцелью. Архитектуры SSL (кодировщики) выступают в роли универсальных экстракторов признаков. '''Downstream-валидация''' (валидация на целевых/прикладных задачах) — это стандартизированный процесс оценки того, насколько хорошо полученные в ходе предобучения признаки (эмбеддинги) могут быть перенесены на реальные практические задачи (англ. ''downstream tasks''), такие как классификация медицинских снимков, сегментация объектов или анализ тональности текста, особенно в условиях дефицита размеченных данных.

Для объективного измерения качества выученных представлений используются следующие стандартные протоколы:

=== Протоколы оценки качества представлений ===
# '''Линейное зондирование (Linear Probing):''' Является «золотым стандартом» оценки чистой семантической информативности эмбеддингов. После завершения предобучения веса кодировщика <tex>f_\theta</tex> полностью «замораживаются» (градиенты через них не пропускаются). Поверх полученных признаков <tex>\mathbf{z} = f_\theta(x)</tex> обучается простая линейная модель (обычно [[Логистическая регрессия]]). Если такой примитивный классификатор показывает высокое качество, это доказывает, что SSL-кодировщик успешно «распутал» (disentangled) сложные нелинейные зависимости в сырых данных и перевел их в линейно разделимое геометрическое пространство.
# '''Метод k-ближайших соседей (k-NN Evaluation):''' Еще более строгая метрика, популяризованная моделью DINO<ref>{{статья|автор=Caron M., Touvron H., Misra I., Jégou H., Mairal J., Bojanowski P., Joulin A.|заглавие=Emerging Properties in Self-Supervised Vision Transformers|издание=Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV)|год=2021|страницы=9650–9660}}</ref>. Оценка целевой задачи производится алгоритмом [[Метод k-ближайших соседей|k-NN]] по косинусному расстоянию между эмбеддингами замороженной модели вообще без какого-либо дополнительного обучения. Эта метрика прямо оценивает структуру метрического пространства: объекты одного семантического класса должны кластеризоваться близко друг к другу.
# '''Тонкая настройка (End-to-End Fine-tuning):''' В то время как Linear Probing оценивает теорию, тонкая настройка применяется для достижения максимального качества (State-of-the-Art) на практике. Веса предобученной модели используются как идеальная точка инициализации, после чего вся сеть (включая кодировщик) дообучается на размеченной выборке целевой задачи с использованием небольшого шага обучения (learning rate).
# '''Оценка в условиях Few-Shot / Semi-Supervised Learning:''' Главная ценность SSL раскрывается в условиях экстремального дефицита разметки. Валидация проводится на искусственно ограниченных наборах данных, где доступно лишь <tex>1\%</tex> или <tex>10\%</tex> размеченной целевой выборки. Предобученные модели, обладающие сильными априорными знаниями о структуре данных, в таких сценариях драматически превосходят архитектуры, обучаемые с нуля (from scratch).

== См. также ==
* [[Обучение без учителя]] — классическая парадигма машинного обучения, нацеленная на поиск скрытых структурных закономерностей, кластеризацию и снижение размерности данных без использования суррогатных целевых функций.
* [[Контрастивное обучение]] — доминирующий подкласс методов самостоятельного обучения, основанный на максимизации взаимного сходства позитивных пар (аугментаций) объектов и одновременном отталкивании негативных примеров в метрическом пространстве.
* [[Тонкая настройка]] — метод переноса знаний (transfer learning), заключающийся в дообучении всех весов предобученной базовой модели под конкретную прикладную (downstream) задачу на ограниченной размеченной выборке.
* [[Взаимная информация]] — фундаментальная теоретико-информационная метрика, максимизация вариационных нижних оценок которой (таких как InfoNCE) составляет математическую основу большинства SSL-архитектур совместного встраивания.
* [[Трансформер (архитектура нейронных сетей)|Архитектура Трансформер]] — глубокая нейросетевая архитектура, основанная на механизме сквозного внутреннего внимания (self-attention), ставшая технологическим базисом для парадигмы маскированного моделирования.
* [[Vision Transformer]] (ViT) — адаптация классической архитектуры трансформера для задач компьютерного зрения, обрабатывающая двумерное изображение как последовательность дискретных пространственных патчей.
* [[Графовые нейронные сети]] (GNN) — класс нейросетевых архитектур для обработки данных с неевклидовой топологической структурой, активно использующий контрастивные и генеративные подходы SSL для получения устойчивых эмбеддингов узлов и графов.

== Примечания ==
{{примечания}}

== Литература ==
* {{статья
|автор = Gui J., Chen T., Zhang J., Cao Q., Sun Z., Luo H., Tao D.
|заглавие = A Survey on Self-Supervised Learning: Algorithms, Applications, and Future Trends
|издание = IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI)
|год = 2024
|том = 46
|номер = 1
|страницы = 422–444
}}
* {{статья
|автор = Liu X., Zhang F., Hou Z., Mian L., Wang Z., Zhang J., Tang J.
|заглавие = Self-Supervised Learning: Generative or Contrastive
|издание = IEEE Transactions on Knowledge and Data Engineering (TKDE)
|год = 2021
|том = 35
|номер = 1
|страницы = 857–876
}}
* {{статья
|автор = Jing L., Tian Y.
|заглавие = Self-Supervised Visual Feature Learning with Deep Neural Networks: A Survey
|издание = IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI)
|год = 2021
|том = 43
|номер = 11
|страницы = 4037–4058
}}
* {{статья
|автор = Liu Y., Jin M., Pan S., Zhou C., Zheng Y., Xia F., Yu P. S.
|заглавие = Graph Self-Supervised Learning: A Survey
|издание = IEEE Transactions on Knowledge and Data Engineering (TKDE)
|год = 2023
|том = 35
|номер = 6
|страницы = 5879–5900
}}

[[Категория:Машинное обучение]]
[[Категория:Нейронные сети]]

Принцип максимума правдоподобия

2026-06-18T18:06:20Z

Описание изменений: Версия 1.0

{{well|Статья написана с использованием LLM ''Gemini 3.1 Pro'' и проверена участником [[Участник:Artem Abdulmanov|Artem Abdulmanov]] 22:06, 18 июня 2026 (MSD)
Промпт приводится полностью в [[Обсуждение:Принцип максимума правдоподобия]]}}
{{TOCright}}

== Введение ==
Оценка максимального правдоподобия (англ. Maximum Likelihood Estimation, MLE) — это фундаментальный метод [[Математическая статистика|математической статистики]] и [[Машинное обучение|машинного обучения]], предназначенный для оценки неизвестных параметров [[Вероятностное распределение|вероятностного распределения]] по имеющейся [[Выборка|выборке данных]]. Суть решаемой проблемы заключается в поиске такого набора параметров, при котором вероятность совместного появления наблюдаемых данных (выборки) становится максимально возможной. В машинном обучении данный принцип лежит в основе вывода большинства классических [[Функция потерь|функций потерь]].

== Мотивировка и историческая справка ==
До начала XX века в статистике доминировали методы, основанные на концепции «обратной вероятности» (inverse probability), сильно зависящие от [[Априорная вероятность|априорных допущений]] исследователя. Предпосылки к созданию более объективного метода были заложены в фундаментальных работах выдающегося британского статистика [[Фишер, Рональд Эйлмер|Рональда Фишера]]<ref>Fisher, 1922</ref>. В своих статьях 1912 и 1922 годов Фишер ввёл чёткое концептуальное разделение между вероятностью (которая применяется к будущим, ещё не наступившим событиям) и правдоподобием (которое применяется к уже наблюдаемым данным для оценки [[Статистическая гипотеза|гипотез]] о параметрах). Фишер математически обосновал, что максимизация функции правдоподобия даёт [[Эффективность (статистика)|асимптотически эффективные]] и [[Состоятельная оценка|состоятельные оценки]] параметров.

== Математический аппарат ==
Пусть имеется выборка <tex>X = (x_1, x_2, \dots, x_n)</tex>, состоящая из [[Независимые и одинаково распределённые случайные величины|независимых и одинаково распределённых]] (i.i.d.) случайных величин, извлечённых из неизвестного распределения, которое моделируется [[Плотность вероятности|функцией плотности вероятности]] (или [[Функция вероятности|функцией массы вероятности]] для дискретного случая) <tex>p(x | \theta)</tex>, где <tex>\theta</tex> — вектор неизвестных параметров.

Поскольку наблюдения независимы, совместная вероятность появления всей выборки <tex>X</tex> равна произведению вероятностей каждого отдельного наблюдения. Эта функция, рассматриваемая как функция от параметров <tex>\theta</tex> при фиксированных данных <tex>X</tex>, называется [[Функция правдоподобия|функцией правдоподобия]] (Likelihood function):

::<tex> L(\theta | X) = \prod_{i=1}^n p(x_i | \theta) </tex>

На практике работать с произведением большого числа малых вероятностей неудобно из-за риска [[Исчезновение порядка|арифметического переполнения снизу]] (underflow) в вычислительных системах. Кроме того, [[Производная функции|производная]] произведения сложна для вычислений. Поскольку [[Логарифм|логарифм]] является [[Монотонная функция|монотонно возрастающей функцией]], максимизация функции правдоподобия эквивалентна максимизации её логарифма. Переход к [[Логарифмическая функция правдоподобия|логарифмической функции правдоподобия]] (Log-Likelihood) заменяет произведение суммой:

::<tex> \ell(\theta | X) = \log L(\theta | X) = \sum_{i=1}^n \log p(x_i | \theta) </tex>

Задача оценки максимального правдоподобия сводится к поиску такого вектора <tex>\hat{\theta}_{MLE}</tex>, который доставляет максимум функции <tex>\ell(\theta | X)</tex>:

::<tex> \hat{\theta}_{MLE} = \arg\max_{\theta} \ell(\theta | X) </tex>

Аналитическое решение (при условии [[Дифференцируемость|дифференцируемости функции]]) находится путём решения системы уравнений, вытекающей из [[Экстремум|условия первого порядка]] (приравнивание первых производных по параметрам к нулю):

::<tex> \frac{\partial \ell(\theta | X)}{\partial \theta} = 0 </tex>

Найденная точка является максимумом, если [[Матрица Гессе|матрица Гессе]] [[Отрицательно определённая матрица|отрицательно определена]].

== Асимптотические свойства ==
Одним из важнейших теоретических свойств [[Оценка максимального правдоподобия|оценки максимального правдоподобия]] является её [[асимптотическая нормальность]]. Данная теорема утверждает, что при выполнении определённых [[Условия регулярности|условий регулярности]] (в частности, требований к [[Дифференцируемость|дифференцируемости]] функции правдоподобия) и неограниченном увеличении объёма выборки <tex>n</tex>, распределение оценки стремится к многомерному [[Нормальное распределение|нормальному распределению]].

Математически это означает, что оценка сходится к истинному значению параметра <tex>\theta_0</tex>, а её ковариационная матрица определяется [[Информационная матрица Фишера|информацией Фишера]]:

::<tex> \sqrt{n}(\hat{\theta}_n - \theta_0) \stackrel{d}{\longrightarrow} \mathcal{N}(0, I^{-1}(\theta_0)) </tex>

Где <tex> \stackrel{d}{\longrightarrow}</tex> обозначает [[Сходимость по распределению|сходимость по распределению]], <tex>\mathcal{N}</tex> — нормальное распределение, а <tex>I(\theta_0)</tex> — матрица информации Фишера для одного наблюдения, вычисленная в истинной точке.

С практической точки зрения это означает, что при достаточно больших выборках оценка максимального правдоподобия является асимптотически [[Эффективность (статистика)|эффективной]] — её дисперсия достигает нижней границы в [[Неравенство Крамера — Рао|неравенстве Рао — Крамера]], то есть она обладает минимально возможной ошибкой среди всех [[Состоятельная оценка|состоятельных оценок]]. В [[Машинное обучение|машинном обучении]] и статистике это свойство широко применяется для аналитического построения [[Доверительный интервал|доверительных интервалов]] параметров моделей (например, весов в [[Логистическая регрессия|логистической регрессии]]) и проверки статистических гипотез с помощью [[Тест Вальда|критерия Вальда]] (Wald test).

== Сравнение с аналогами ==
Метод максимального правдоподобия часто сравнивают с другими подходами к оценке параметров:

* [[Метод моментов]] (Method of Moments): Исторически более ранний метод, предложенный [[Пирсон, Карл|Карлом Пирсоном]]. Он заключается в приравнивании теоретических [[Момент (математика)|моментов распределения]] к выборочным. В отличие от MLE, метод моментов не всегда использует всю информацию, содержащуюся в выборке, и часто даёт менее эффективные (с большей [[Дисперсия случайной величины|дисперсией]]) оценки, хотя и более простые в вычислении.
* [[Оценка максимума апостериорной вероятности]] (Maximum A Posteriori, MAP): [[Байесовский вывод|Байесовский подход]], который, в отличие от MLE, учитывает априорные знания о параметрах <tex>\theta</tex>, заданные в виде распределения <tex>p(\theta)</tex>. Согласно [[Теорема Байеса|теореме Байеса]], MAP максимизирует [[Апостериорная вероятность|апостериорную вероятность]]:

::<tex> \hat{\theta}_{MAP} = \arg\max_{\theta} p(\theta | X) = \arg\max_{\theta} p(X | \theta) p(\theta) </tex>

Если априорное распределение параметров <tex>p(\theta)</tex> является константой ([[Непрерывное равномерное распределение|равномерное распределение]]), слагаемое <tex>\log p(\theta)</tex> не зависит от <tex>\theta</tex>, и задача поиска MAP строго вырождается в задачу поиска MLE. Таким образом, MLE является частным случаем байесовского вывода с неинформативным (равномерным) априорным распределением<ref>Бишоп, 2008</ref>.

== Связь с машинным обучением и схема обучения ==
Многие известные функции потерь в ML являются прямым следствием принципа максимума правдоподобия<ref>Гудфеллоу и др., 2017</ref>.

Для задачи [[Регрессионный анализ|регрессии]]: Если мы предполагаем, что целевая переменная <tex>y_i</tex> генерируется детерминированной моделью <tex>f_\theta(x_i)</tex> с добавлением [[Нормальное распределение|гауссовского шума]] <tex>\epsilon \sim \mathcal{N}(0, \sigma^2)</tex>, то правдоподобие одного наблюдения равно плотности нормального распределения. Максимизация логарифма такого правдоподобия математически сводится к минимизации суммы квадратов разностей:

::<tex> \arg\max_{\theta} \sum_{i=1}^n \log \left( \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(y_i - f_\theta(x_i))^2}{2\sigma^2}\right) \right) \equiv \arg\min_{\theta} \sum_{i=1}^n (y_i - f_\theta(x_i))^2 </tex>

Таким образом, минимизация [[Среднеквадратичная ошибка|среднеквадратичной ошибки]] (MSE) строго эквивалентна оценке максимального правдоподобия при допущении о нормальном распределении шума.

Для задачи [[Классификация (машинное обучение)|классификации]]: Если целевая метка распределена по [[Распределение Бернулли|закону Бернулли]] (бинарная классификация) или [[Категориальное распределение|категориальному закону]] (многоклассовая классификация), то логарифмическая функция правдоподобия принимает вид функции перекрёстной энтропии ([[Кросс-энтропия]]).

С точки зрения [[Численная оптимизация|численной оптимизации]] (например, [[Стохастический градиентный спуск|стохастического градиентного спуска]]), градиенты функции логарифмического правдоподобия обладают хорошими свойствами сходимости, особенно в комбинации с [[Экспоненциальное семейство распределений|экспоненциальными семействами распределений]] и функцией [[Softmax]].

В машинном обучении, вместо максимизации правдоподобия, принято минимизировать отрицательное логарифмическое правдоподобие (Negative Log-Likelihood, NLL), так как [[Алгоритмы оптимизации|оптимизаторы]] [[Глубокое обучение|глубокого обучения]] по умолчанию настроены на минимизацию функций потерь.

== Современные подходы и State-of-the-Art (SOTA) ==
На переднем крае науки принцип правдоподобия является ядром для обучения глубоких [[Генеративная модель|генеративных моделей]]:
* [[Вариационный автокодировщик|Вариационные автокодировщики]] (VAE): Поскольку точное [[Маргинальное распределение|маргинальное правдоподобие]] данных <tex>p(X)</tex> в сложных моделях со [[Скрытая переменная|скрытыми переменными]] вычислить аналитически невозможно, современные архитектуры используют суррогатные цели. В VAE алгоритмы максимизируют вариационную нижнюю оценку (Evidence Lower Bound, ELBO), которая гарантированно является нижней границей истинного логарифмического правдоподобия.
* [[Диффузионная модель|Диффузионные модели]]: Обучение диффузионных моделей через сопоставление оценок (Score Matching) также имеет глубокую математическую связь с максимизацией правдоподобия распределения данных через [[Стохастическое дифференциальное уравнение|стохастические дифференциальные уравнения]].

== См. также ==
* [[Оценка максимума апостериорной вероятности]]
* [[Кросс-энтропия]]
* [[Метод моментов]]
* [[Теорема Байеса]]
* [[Информационная матрица Фишера]]

== Примечания ==
<references />

== Литература ==
* {{статья | автор = Fisher R. A. | заглавие = On the mathematical foundations of theoretical statistics | издание = Philosophical Transactions of the Royal Society of London. Series A | год = 1922 | страницы = 309-368 }}
* {{книга | автор = Бишоп К. М. | заглавие = Распознавание образов и машинное обучение | место = М. | издательство = Вильямс | год = 2008 }}
* {{книга | автор = Гудфеллоу И., Бенджио И., Курвилль А. | заглавие = Глубокое обучение | место = М. | издательство = ДМК Пресс | год = 2017 }}

[[Категория:Математическая статистика]]
[[Категория:Машинное обучение]]

Адаптация низкого ранга

2026-06-18T14:37:11Z

Описание изменений: Новая: {{well|Статья написана с использованием LLM '''DeepSeek-V3''' и проверена участником [[Участник:Mihail Mishin|М. Мишин]] 17...

{{well|Статья написана с использованием LLM '''DeepSeek-V3''' и проверена участником [[Участник:Mihail Mishin|М. Мишин]] 17:37, 18 июня 2026 (MSD)
Промпт приводится полностью в [[Обсуждение:Дистилляция моделей]]
}}
{{TOCright}}

== Определение и основная идея ==
'''Low‑Rank Adaptation''' ('''LoRA''') — метод эффективного по числу обучаемых параметров (parameter‑efficient fine‑tuning, PEFT) [[Тонкая настройка|тонкой настройки]] предобученных [[Нейронная сеть|нейронных сетей]].<ref name="hu2021">{{статья |автор=Hu E. J., Shen Y., Wallis P., Allen-Zhu Z., Li Y., Wang S., Wang L., Chen W. |заглавие=LoRA: Low-Rank Adaptation of Large Language Models |издание=arXiv:2106.09685 [cs.CL] |год=2021 |ссылка=https://arxiv.org/abs/2106.09685 |ref=hu2021}}</ref> В основе метода лежит гипотеза о том, что изменения весовых матриц при адаптации большой модели к конкретной задаче обладают низким [[Ранг матрицы|рангом]]. Вместо прямого обновления полной матрицы весов <tex>W \in \mathbb{R}^{d \times k}</tex> в LoRA обучается её аддитивная низкоранговая добавка <tex>\Delta W = BA</tex>, где <tex>B \in \mathbb{R}^{d \times r}</tex>, <tex>A \in \mathbb{R}^{r \times k}</tex>, а ранг <tex>r \ll \min(d,k)</tex>. Исходные веса <tex>W</tex> при этом «замораживаются». Такой подход позволяет сократить количество обучаемых параметров в сотни и тысячи раз, сохраняя или почти не ухудшая качество по сравнению с полной тонкой настройкой.

Метод первоначально предложен для [[Трансформер (архитектура)|трансформерных]] [[Большая языковая модель|больших языковых моделей]], однако в дальнейшем был обобщён на широкий круг архитектур, включая [[Свёрточная нейронная сеть|свёрточные нейронные сети]], [[Диффузионные модели|диффузионные модели]], [[Графовая нейронная сеть|графовые нейронные сети]], и стал важным инструментом [[Федеративное обучение|федеративного обучения]].

== Мотивация ==
Современные предобученные модели, особенно в области [[Обработка естественного языка|обработки естественного языка]] и [[Компьютерное зрение|компьютерного зрения]], содержат от сотен миллионов до триллионов параметров. Полная тонкая настройка (full fine‑tuning) требует хранения и обновления всех параметров для каждой конкретной задачи, что ведёт к колоссальным затратам памяти, вычислительных ресурсов и дисковой ёмкости при развёртывании множества специализированных версий модели. Parameter‑efficient fine‑tuning (PEFT) решает эту проблему, модифицируя лишь малую долю параметров, тогда как основная масса весов остаётся неизменной и разделяется между задачами.

== Историческая справка ==
Теоретическим фундаментом LoRA послужило исследование Армена Агаджаняна и соавторов<ref name="aghajanyan2020">{{статья |автор=Aghajanyan A., Gupta S., Zettlemoyer L. |заглавие=Intrinsic Dimensionality Explains the Effectiveness of Language Model Fine-Tuning |издание=arXiv:2012.13255 [cs.CL] |год=2020 |ссылка=https://arxiv.org/abs/2012.13255 |ref=aghajanyan2020}}</ref>, показавшее, что тонкая настройка языковых моделей может быть выполнена в подпространстве малой размерности («внутренняя размерность» задачи). Параллельно развивались практические методы PEFT: вставка компактных адаптерных модулей<ref>{{статья |автор=Houlsby N., Giurgiu A., Jastrzebski S., Morrone B., de Laroussilhe Q., Gesmundo A., Attariyan M., Gelly S. |заглавие=Parameter-Efficient Transfer Learning for NLP |издание=Proceedings of the 36th International Conference on Machine Learning (ICML) |год=2019 |ссылка=https://proceedings.mlr.press/v97/houlsby19a.html}}</ref>, префиксная настройка<ref>{{статья |автор=Li X. L., Liang P. |заглавие=Prefix-Tuning: Optimizing Continuous Prompts for Generation |издание=Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics (ACL) |год=2021 |ссылка=https://aclanthology.org/2021.acl-long.353/}}</ref> и промпт-настройка<ref>{{статья |автор=Lester B., Al-Rfou R., Constant N. |заглавие=The Power of Scale for Parameter-Efficient Prompt Tuning |издание=Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing (EMNLP) |год=2021 |ссылка=https://aclanthology.org/2021.emnlp-main.243/}}</ref>. Метод LoRA был предложен в 2021 году Эдвардом Ху и его коллегами из Microsoft<ref name="hu2021" /> и сразу привлёк внимание сообщества благодаря элегантности математической формулировки, отсутствию дополнительных задержек на этапе вывода и совместимости с другими PEFT‑методами.

== Описание метода ==
=== Математическая формулировка ===
Рассмотрим полносвязный слой с матрицей весов <tex>W \in \mathbb{R}^{d \times k}</tex>. Выход слоя на входном векторе <tex>x</tex> в процессе тонкой настройки вычисляется как

<tex>h = Wx + \Delta W x = Wx + BAx,</tex>

где <tex>W</tex> заморожена, а матрицы <tex>B \in \mathbb{R}^{d \times r}</tex> и <tex>A \in \mathbb{R}^{r \times k}</tex> содержат обучаемые параметры. Ранг <tex>r</tex> выбирается значительно меньшим, чем размеры исходной матрицы. После завершения обучения явное произведение <tex>BA</tex> можно прибавить к <tex>W</tex>, получив <tex>W' = W + BA</tex>; таким образом, на этапе вывода не возникает дополнительных вычислительных затрат по сравнению с исходной моделью.

Гипотеза низкого ранга обновлений подтверждается эмпирически: анализ [[Сингулярное разложение|сингулярных чисел]] матрицы <tex>\Delta W</tex> в ряде задач демонстрирует быстрое убывание спектра, причём основная информация концентрируется в нескольких ведущих компонентах<ref name="hu2021" />.

=== Применение к механизму внимания ===
В архитектуре трансформера<ref>{{статья |автор=Vaswani A., Shazeer N., Parmar N., Uszkoreit J., Jones L., Gomez A. N., Kaiser Ł., Polosukhin I. |заглавие=Attention Is All You Need |издание=Advances in Neural Information Processing Systems 30 (NeurIPS) |год=2017 |ссылка=https://papers.nips.cc/paper_files/paper/2017/hash/3f5ee243547dee91fbd053c1c4a845aa-Abstract.html}}</ref> наибольший объём параметров приходится на матрицы запросов, ключей, значений и выходную матрицу многоголового внимания (<tex>W_q, W_k, W_v, W_o</tex>). Оригинальная работа<ref name="hu2021" /> фокусируется на адаптации <tex>W_q</tex> и <tex>W_v</tex>; последующие исследования распространили LoRA на все четыре матрицы или только на <tex>W_q</tex> и <tex>W_o</tex>, в зависимости от баланса между качеством и числом параметров.

== Выбор ранга и инициализация ==
=== Инициализация матриц ===
Ключевое требование к инициализации — чтобы в начале обучения <tex>\Delta W = 0</tex>, и модель вела себя в точности как предобученная. Для этого матрица <tex>A</tex> инициализируется случайным образом (например, из нормального распределения с малой дисперсией), а матрица <tex>B</tex> — нулями. Благодаря этому градиенты на старте затрагивают только <tex>A</tex>, а обновление весов начинается плавно.

Развитием этого подхода стала инициализация на основе [[Сингулярное разложение|сингулярного разложения]] исходной матрицы <tex>W</tex> (метод PiSSA<ref>{{статья |автор=Meng F., Wang Z., Zhang M. |заглавие=PiSSA: Principal Singular values and Singular vectors Adaptation |издание=arXiv:2404.02948 [cs.LG] |год=2024 |ссылка=https://arxiv.org/abs/2404.02948}}</ref>), где <tex>A</tex> и <tex>B</tex> инициализируются главными сингулярными векторами и значениями <tex>W</tex>, а остаток от разложения замораживается. Это позволяет ускорить сходимость в задачах, где желательно не «портить» сильно предобученное представление.

=== Влияние ранга ===
Эксперименты Ху и соавторов<ref name="hu2021" /> на моделях GPT‑2 и GPT‑3 показали, что даже экстремально низкие ранги (<tex>r = 1, 2, 4</tex>) зачастую обеспечивают качество, сравнимое с полной тонкой настройкой, при этом прирост при дальнейшем увеличении <tex>r</tex> быстро насыщается. На практике для языковых задач популярны значения <tex>r \in \{8, 16, 32\}</tex>. Выбор конкретного ранга диктуется компромиссом между допустимым числом обучаемых параметров и требуемой точностью адаптации. Систематические исследования показывают, что эффективность низкого ранга коррелирует с «внутренней размерностью» задачи<ref name="aghajanyan2020" />.

=== Динамический и адаптивный ранг ===
Недостаток фиксированного ранга состоит в том, что разумное значение <tex>r</tex> приходится подбирать перебором. Для решения этой проблемы были предложены методы:
* '''DyLoRA'''<ref>{{статья |автор=Valipour M., Rezagholizadeh M., Kobyzev I., Ghassemi A. |заглавие=DyLoRA: Parameter Efficient Tuning of Pre-trained Models using Dynamic Search-Free Low Rank Adaptation |издание=arXiv:2210.07558 [cs.CL] |год=2022 |ссылка=https://arxiv.org/abs/2210.07558}}</ref> — обучает матрицы <tex>A</tex> и <tex>B</tex> сразу для нескольких рангов, случайным образом выбирая эффективный ранг на каждом шаге оптимизации. Это позволяет после обучения гибко усекать ранг без потери точности.
* '''AdaLoRA''' (Zhang et al., ICLR 2023) — формулирует задачу как оптимизацию с бюджетом параметров и использует важность сингулярных значений для автоматического назначения неравномерных рангов разным весовым матрицам в ходе обучения.

== Применения за пределами трансформерных архитектур ==
Хотя LoRA родилась в контексте языковых трансформеров, её базовая идея не зависит от конкретной архитектуры. Общий принцип — факторизация обновления весового тензора в виде низкорангового произведения — легко переносится на другие слои и модальности. Так, LoRA успешно адаптирована для:
* '''[[Компьютерное зрение]]''': [[Vision Transformer]] (ViT), свёрточные нейронные сети (CNN). В CNN весовой тензор ядра размером <tex>k \times k \times C_{in} \times C_{out}</tex> преобразуется в двумерную матрицу и раскладывается на произведение двух низкоранговых матриц, что открывает возможность эффективной настройки популярных «зрительных» энкодеров (ResNet, ConvNeXt) с числом обучаемых параметров, составляющим менее 1 % исходных.
* '''[[Диффузионные модели]]''': генеративные модели, такие как Stable Diffusion, тонко настраиваются с помощью LoRA для переноса стиля или запоминания конкретных объектов (DreamBooth<ref>{{статья |автор=Ruiz N., Li Y., Jampani V., Pritch Y., Rubinstein M., Aberman K. |заглавие=DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation |издание=Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) |год=2023 |ссылка=https://openaccess.thecvf.com/content/CVPR2023/html/Ruiz_DreamBooth_Fine_Tuning_Text-to-Image_Diffusion_Models_for_Subject-Driven_Generation_CVPR_2023_paper.html}}</ref>). Здесь LoRA накладывается преимущественно на слои кросс‑внимания, что доказало свою эффективность и породило обширную экосистему облегчённых адаптеров.
* '''[[Графовая нейронная сеть|Графовые нейронные сети]] (GNN)''': применение LoRA к слоям графовых трансформеров и классических GNN позволяет адаптировать крупные модели к новым типам графов с минимальной дополнительной памятью.
* '''[[Федеративное обучение]]''': метод FedLoRA использует низкоранговые адаптеры для персонализации глобальной модели под локальные данные клиентов, обеспечивая коммуникационную эффективность и совместимость моделей разной архитектуры.
* '''Обработка аудио и речи''': LoRA применяется для быстрой адаптации больших моделей автоматического распознавания речи (Whisper, Wav2Vec 2.0) и синтеза речи, особенно в условиях ограниченного объёма целевых данных.

== Преимущества и ограничения ==
'''Преимущества:'''
* Резкое сокращение числа обучаемых параметров (часто в 100–1000 раз) и, как следствие, требований к памяти и дисковой ёмкости.
* Отсутствие задержек на инференсе благодаря возможности слияния обученных матриц с исходными весами.
* Простота реализации и совместимость с другими PEFT‑методами (например, с префиксной настройкой или квантизацией, как в QLoRA<ref>{{статья |автор=Dettmers T., Pagnoni A., Holtzman A., Zettlemoyer L. |заглавие=QLoRA: Efficient Finetuning of Quantized Language Models |издание=Advances in Neural Information Processing Systems (NeurIPS) |год=2023 |ссылка=https://proceedings.neurips.cc/paper_files/paper/2023/hash/1feb87871436031bdc0f2beaa62a049b-Abstract-Conference.html}}</ref>).
* Допускает независимое обучение и композицию нескольких адаптеров для разных задач.

'''Ограничения:'''
* Качество может уступать полной тонкой настройке в задачах, требующих значительного изменения распределения признаков (при очень большом доменном сдвиге).
* Оптимальный ранг и выбор матриц, к которым применяется LoRA, до сих пор определяются эмпирически или с помощью эвристик, хотя и автоматизируются современными расширениями.
* Применение к операциям, отличным от линейных (например, нормализациям или функциям активации), напрямую невозможно; для них приходится использовать иные методы вставки адаптеров.

== См. также ==
* [[Parameter-Efficient Fine-Tuning]]
* [[Тонкая настройка (машинное обучение)]]
* [[Трансформер (архитектура)]]
* [[Большая языковая модель]]
* [[Федеративное обучение]]

== Примечания ==
{{примечания}}

== Литература ==
* {{статья |автор=Hu E. J., Shen Y., Wallis P., Allen-Zhu Z., Li Y., Wang S., Wang L., Chen W. |заглавие=LoRA: Low-Rank Adaptation of Large Language Models |издание=arXiv:2106.09685 [cs.CL] |год=2021 |ссылка=https://arxiv.org/abs/2106.09685 |ref=hu2021}}
* {{статья |автор=Aghajanyan A., Gupta S., Zettlemoyer L. |заглавие=Intrinsic Dimensionality Explains the Effectiveness of Language Model Fine-Tuning |издание=arXiv:2012.13255 [cs.CL] |год=2020 |ссылка=https://arxiv.org/abs/2012.13255}}
* {{статья |автор=Dettmers T., Pagnoni A., Holtzman A., Zettlemoyer L. |заглавие=QLoRA: Efficient Finetuning of Quantized Language Models |издание=Advances in Neural Information Processing Systems (NeurIPS) |год=2023 |ссылка=https://proceedings.neurips.cc/paper_files/paper/2023/hash/1feb87871436031bdc0f2beaa62a049b-Abstract-Conference.html}}

[[Категория:Машинное обучение]]
[[Категория:Глубокое обучение]]
[[Категория:Обработка естественного языка]]

Площадь под ROC-кривой

2026-06-18T14:29:41Z

Описание изменений: /* Обработка совпадающих скоров (ties) */ убрана излишние англицизмы

{{well|Статья написана с использованием LLM '''DeepSeek-V3 & Claude Opus 4.8''' и проверена участником [[Участник:Artyom Savov|Artyom Savov]] 19:29, 18 июня 2026 (MSD)}}

{{TOCright}}

'''Площадь под ROC-кривой''' (англ. ''Area Under the Receiver Operating Characteristic curve'', '''ROC-AUC''' или '''AUC-ROC''') — [[Метрики качества бинарной классификации|агрегированная метрика качества]] [[Бинарная классификация|бинарной классификации]], повсеместно используемая в [[Машинное обучение|машинном обучении]] для оценки способности модели ранжировать объекты двух классов. Численно равна площади фигуры, ограниченной [[ROC-кривая|ROC-кривой]] и осью [[Ошибки первого и второго рода|доли ложноположительных классификаций]]. Значение лежит в диапазоне от 0 до 1; для совершенного классификатора AUC = 1, для случайного гадания AUC = 0.5, а для систематически инвертированного классификатора AUC может опускаться до 0. Благодаря пороговой инвариантности и глубокой связи с [[Статистика Манна-Уитни|непараметрической U-статистикой Манна — Уитни]] метрика стала одной из основных в арсенале специалистов по [[Data Science|анализу данных]] и [[Машинное обучение|машинному обучению]].

== Определение и геометрический смысл ==
Рассматривается задача [[Бинарная классификация|бинарной классификации]] с положительным (целевым) классом <tex>\mathcal{C}_1</tex> и отрицательным <tex>\mathcal{C}_0</tex>. Модель выдаёт для каждого объекта числовую оценку (score) <tex>s(\mathbf{x}) \in \mathbb{R}</tex>, и решение о принадлежности к классу принимается сравнением с порогом <tex>t</tex>: объект относят к <tex>\mathcal{C}_1</tex>, если <tex>s(\mathbf{x}) \geq t</tex>.

Для каждого фиксированного порога вычисляются две фундаментальные величины:
* '''Доля истинноположительных решений''' ('''[[Чувствительность (статистика)|чувствительность]]''', True Positive Rate, TPR):
::<tex>\mathrm{TPR} = \frac{\mathrm{TP}}{\mathrm{TP} + \mathrm{FN}}</tex>
* '''Доля ложноположительных решений''' (False Positive Rate, FPR):
::<tex>\mathrm{FPR} = \frac{\mathrm{FP}}{\mathrm{FP} + \mathrm{TN}}</tex>,

где <tex>\mathrm{TP}, \mathrm{TN}, \mathrm{FP}, \mathrm{FN}</tex> — число истинно положительных, истинно отрицательных, ложноположительных и ложноотрицательных предсказаний соответственно.

'''[[ROC-кривая]]''' (Receiver Operating Characteristic) представляет собой график зависимости <tex>\mathrm{TPR}</tex> от <tex>\mathrm{FPR}</tex> при непрерывном изменении порога <tex>t</tex> от <tex>+\infty</tex> до <tex>-\infty</tex>. Кривая всегда начинается в точке <tex>(0,0)</tex> (ни одного положительного предсказания) и заканчивается в точке <tex>(1,1)</tex> (все объекты классифицированы как положительные). Диагональ <tex>\mathrm{TPR} = \mathrm{FPR}</tex> отвечает стратегии случайного угадывания.

'''Площадь под ROC-кривой''' определяется как интеграл доли истинноположительных решений по доле ложноположительных:
::<tex>\mathrm{AUC} = \int_{0}^{1} \mathrm{TPR}\,d(\mathrm{FPR})</tex>
и геометрически равна доле единичного квадрата, лежащей под кривой. ROC-кривая всегда является неубывающей, однако она может целиком или частично лежать ''под'' диагональю: если классификатор систематически присваивает положительным объектам более низкие скоры, чем отрицательным, кривая провисает, а AUC оказывается меньше 0.5, вплоть до 0 для идеально инвертированного классификатора. Таким образом, вопреки распространённому представлению о диапазоне <tex>[0.5, 1]</tex>, допустимый диапазон значений AUC — <tex>[0, 1]</tex>. В кредитном скоринге часто используют нормированную величину <tex>G = 2\,\mathrm{AUC} - 1</tex>, называемую [[Коэффициент Джини|индексом Джини]] (англ. ''Gini index'', эквивалент статистики Сомерса <tex>D</tex>; не путать с коэффициентом Джини, измеряющим неравенство).

== Вероятностная интерпретация и связь со статистикой Манна — Уитни ==
Ключевое свойство ROC-AUC, во многом объясняющее его популярность, — прозрачный вероятностный смысл. Пусть <tex>\mathbf{x}_+ \sim \mathcal{C}_1</tex> и <tex>\mathbf{x}_- \sim \mathcal{C}_0</tex> — независимые случайные объекты положительного и отрицательного классов. Тогда справедливо точное равенство

::<tex>\mathrm{AUC} = P\bigl(s(\mathbf{x}_+) > s(\mathbf{x}_-)\bigr) + \frac{1}{2} P\bigl(s(\mathbf{x}_+) = s(\mathbf{x}_-)\bigr).</tex>

Иными словами, AUC есть вероятность того, что случайно выбранный положительный объект получит от классификатора более высокую оценку, чем случайно выбранный отрицательный, плюс половина вероятности получить одинаковые оценки. При отсутствии совпадающих скоров (ties) второе слагаемое обращается в нуль, и формула сводится к классической <tex>\mathrm{AUC} = P(s(\mathbf{x}_+) > s(\mathbf{x}_-))</tex>, впервые отмеченной Бамбером (1975)<ref name="bamber">Bamber D. The area above the ordinal dominance graph and the area below the receiver operating characteristic graph // Journal of Mathematical Psychology. — 1975. — Vol. 12, № 4. — P. 387–415.</ref> и Хэнли и МакНилом (1982)<ref name="hanley">Hanley J. A., McNeil B. J. The meaning and use of the area under a receiver operating characteristic (ROC) curve // Radiology. — 1982. — Vol. 143, № 1. — P. 29–36.</ref>.

Эквивалентная формулировка даётся через непараметрический [[Статистика Манна-Уитни|U-критерий Манна — Уитни]]. Пусть имеется <tex>n_+</tex> положительных и <tex>n_-</tex> отрицательных примеров, проранжированных по возрастанию скора (бóльшему скору соответствует бóльший ранг; совпадающим скорам присваиваются средние ранги). Если <tex>R_+</tex> — сумма рангов положительных примеров, то

::<tex>\mathrm{AUC} = \frac{R_+ - \frac{n_+(n_+ + 1)}{2}}{n_+ n_-}.</tex>

Эта формула, помимо прямой связи с теорией ранговых критериев, даёт вычислительно эффективный способ оценки AUC ([[Вычислительная сложность|сложность]] <tex>O(N \log N)</tex> за счёт сортировки) и подчёркивает устойчивость метрики к монотонным преобразованиям скора.

=== Обработка совпадающих скоров ===
На практике модель может выдавать одинаковые значения скора для объектов разных классов. Такие совпадения (ties) требуют аккуратного обращения и влияют как на геометрию ROC-кривой, так и на вычисление AUC.

Если в отсортированной по убыванию скора последовательности встречается группа объектов с одинаковым скором, содержащая и положительные, и отрицательные примеры, то при прохождении порога через эту группу классификатор одновременно меняет и число ложноположительных, и число истинноположительных предсказаний. Вместо строго вертикальных (увеличение TPR без изменения FPR) или горизонтальных (увеличение FPR без изменения TPR) шагов на ROC-кривой возникает '''диагональный участок'''. Наклон этого участка определяется локальной долей положительных примеров в группе совпадающих скоров. Геометрически такое поведение соответствует тому, что площадь под кривой учитывает частичный вклад совпадений.

С вычислительной точки зрения диагональным шагам отвечает правило присвоения средних рангов в критерии Манна — Уитни. Эквивалентно, при подсчёте AUC перебирают все пары «положительный–отрицательный» и суммируют 1, если скор положительного строго выше, 0.5, если скоры равны, и 0 в противном случае; результат делят на общее количество пар <tex>n_+ n_-</tex>. Тем самым вероятностная формула с половинным весом вероятности равенства скоров не только математически строга, но и непосредственно реализуется в алгоритмическом подсчёте.

== Методы оценивания AUC ==
На практике AUC оценивается несколькими способами:

# '''Трапециевидное (эмпирическое, непараметрическое) правило.''' Площадь под эмпирической ломаной ROC-кривой суммируется по трапециям. Это самый распространённый метод, эквивалентный вычислению U-статистики Уилкоксона.
# '''Параметрический (бинормальный) метод.''' Предполагается, что оценки в обоих классах распределены нормально (возможно, после монотонного преобразования); параметры подбираются методом максимального правдоподобия, что даёт гладкую кривую. Метод следует применять с осторожностью: ему свойствен артефакт «крюка» (англ. ''hook'') — провисание подобранной кривой ниже диагонали вблизи краёв, дающее неправдоподобную форму ROC.
# '''Прямой подсчёт через попарное сравнение.''' Подсчёт доли правильно упорядоченных пар; при наивной реализации требует <tex>O(mn)</tex> операций, но сортировкой по оценкам сводится к <tex>O(N \log N)</tex>.

При любых реализациях важно корректно обрабатывать совпадения оценок (см. раздел [[#Обработка совпадающих скоров (ties)|выше]]). Стандартный подход (включая трапециевидное правило Хэнли — МакНил и реализации в scikit-learn, pROC, ROCR) приписывает совпавшим парам вероятность ½, что соответствует линейной интерполяции ROC-кривой между соседними точками. Мушелли (Muschelli, 2020)<ref name="muschelli">Muschelli J. ROC and AUC with a binary predictor: a potentially misleading metric // Journal of Classification. — 2020. — Vol. 37. — P. 696–708. (препринт 2019)</ref> показал, что для бинарного (двузначного) предиктора AUC сводится к простой формуле <tex>\mathrm{AUC} = \frac{1}{2}(\text{Sens} + \text{Spec})</tex>, и что разные стратегии обработки совпадений могут давать заметно различающиеся значения — это важно учитывать при сравнении категориальных признаков.

== Свойства и особенности ==
=== Инвариантность к распределению классов ===
Поскольку TPR и FPR являются условными вероятностями внутри своего класса, форма ROC-кривой и площадь под ней не зависят от соотношения классов в выборке (prevalence). Изменение пропорции положительных и отрицательных примеров не меняет кривую; сдвигается лишь положение конкретного рабочего порога. Это свойство делает AUC удобным для сравнения классификаторов на датасетах с разным балансом, но, как обсуждается ниже, может порождать иллюзорно оптимистичные выводы в сильно несбалансированных задачах.

=== Поведение при сильном дисбалансе ===
[[Несбалансированные данные|Резкий дисбаланс классов]] (например, 1:1000) демонстрирует основное ограничение бездумного применения ROC-AUC. Высокий AUC не гарантирует приемлемой абсолютной точности. Рассмотрим пример: 100 положительных на 1 000 000 отрицательных. Классификатор, который ставит 90 истинных положительных выше 1 000 отрицательных, даёт в этой рабочей точке
* <tex>\mathrm{TPR} = 0.9</tex>,
* <tex>\mathrm{FPR} = 1\,000 / 1\,000\,000 = 0.001</tex>.
При таком поведении в области малых FPR ROC-кривая прижимается к левому верхнему углу, и AUC легко превышает 0.99. Однако точность (precision) в этой рабочей точке составляет лишь <tex>90/(90 + 1\,000) \approx 0.083</tex>. Высокий AUC создаёт ложное ощущение почти идеальной модели при высоком уровне ложных срабатываний<ref name="davis">Davis J., Goadrich M. The relationship between Precision-Recall and ROC curves // Proceedings of the 23rd International Conference on Machine Learning (ICML). — 2006. — P. 233–240.</ref><ref name="saito">Saito T., Rehmsmeier M. The precision-recall plot is more informative than the ROC plot when evaluating binary classifiers on imbalanced datasets // PLoS ONE. — 2015. — Vol. 10, № 3. — e0118432.</ref>.

Причина эффекта — равномерное взвешивание всех точек пространства (FPR, TPR) при вычислении AUC, тогда как практический интерес часто сосредоточен в области малых FPR. Поэтому для резко несбалансированных задач рекомендуется дополнять анализ площадью под [[Кривая Precision-Recall|кривой точности-полноты]] (PR-AUC) и частичным AUC (см. ниже).

=== Частичный AUC (pAUC) ===
'''Частичный AUC''' (partial AUC, pAUC) — интеграл доли истинноположительных решений по ограниченному диапазону доли ложноположительных <tex>\mathrm{FPR} \in [0, f]</tex>:
::<tex>\mathrm{pAUC}(f) = \int_{0}^{f} \mathrm{TPR}\,d(\mathrm{FPR}),</tex>
обычно нормированный на длину интервала или приводимый к стандартизованному виду (McClish, 1989<ref name="mcclish">McClish D. K. Analyzing a portion of the ROC curve // Medical Decision Making. — 1989. — Vol. 9, № 3. — P. 190–195.</ref>). Метрика отражает качество модели только в практически значимой области малых FPR и потому особенно полезна в задачах с высокой ценой ложных тревог. Недостаток — необходимость экспертного выбора границы <tex>f</tex>.

=== Связь с другими метриками ===
* AUC и '''доля правильных ответов (accuracy)''' связаны лишь косвенно: accuracy зависит от выбранного порога и от распространённости классов, тогда как AUC не зависит ни от того, ни от другого.
* В бинарной классификации AUC линейно связан с [[Коэффициент Джини|индексом Джини]] (статистикой Сомерса <tex>D</tex>): <tex>G = 2\,\mathrm{AUC} - 1</tex>, широко применяемым в [[Скоринг|кредитном скоринге]].
* В отличие от [[Brier score|показателя Бриера]], который является собственной (proper) скоринговой функцией и измеряет одновременно дискриминацию и калибровку вероятностей, AUC измеряет ''только'' качество ранжирования и абсолютно нечувствителен к калибровке (см. отдельный раздел).

== Обобщение на многоклассовую классификацию ==
Для задач с <tex>K > 2</tex> классами однозначного понятия ROC-AUC не существует. На практике применяют две стратегии сведения к бинарному случаю: '''One-vs-Rest (OvR)''' и '''One-vs-One (OvO)'''.

* '''One-vs-Rest''': для каждого класса <tex>k</tex> строят бинарный классификатор «<tex>k</tex> против остальных», вычисляют AUC по соответствующей бинарной метке и усредняют. В зависимости от способа усреднения различают:
** '''macro-AUC''' — арифметическое среднее индивидуальных AUC по классам. Каждый класс учитывается с равным весом, что может дать сильно искажённую картину при наличии редких классов: классификатор, полностью игнорирующий миноритарный класс, тем не менее может получить умеренно высокий macro-AUC.
** '''micro-AUC''' — бинаризованные по схеме OvR метки и соответствующие им скоры всех классов конкатенируются в единые векторы (каждая пара «объект — класс» рассматривается как отдельное бинарное наблюдение), после чего вычисляется ''один'' AUC по объединённому набору. Эта метрика отражает среднее качество на уровне отдельных наблюдений и слабее реагирует на дисбаланс, но способна маскировать проблемы с отдельными классами.

* '''One-vs-One''': строятся бинарные классификаторы для всех <tex>C_K^2</tex> пар классов, вычисляются попарные AUC, которые затем усредняются (обычно macro-усреднение). Такой подход вычислительно более затратен, но даёт более детальную информацию о способности модели разделять конкретные пары классов; именно это обобщение предложено Хэндом и Тиллом (2001)<ref name="handtill">Hand D. J., Till R. J. A simple generalisation of the area under the ROC curve for multiple class classification problems // Machine Learning. — 2001. — Vol. 45. — P. 171–186.</ref>. Практическая реализация многоклассового AUC в библиотеках вроде [[scikit-learn]] поддерживает обе стратегии, выбираемые параметром <code>multi_class</code> (<code>'ovr'</code> или <code>'ovo'</code>), с возможностью macro- или взвешенного усреднения.

Критический разрыв между macro- и micro-AUC возникает именно в сценариях с сильным дисбалансом. Когда редкий класс составляет лишь доли процента от выборки, его вклад в micro-усреднение ничтожен, и высокий micro-AUC может наблюдаться даже при неспособности модели правильно ранжировать объекты редкого класса. Macro-усреднение, наоборот, усиливает влияние каждого класса, но становится статистически неустойчивым при малом числе примеров редкого класса. В инженерной практике рекомендуется отчитываться об обеих метриках и анализировать confusion matrix для миноритарных классов.

== Оценка статистической значимости при сравнении моделей ==
При сравнении двух классификаторов на одной и той же тестовой выборке разность их AUC сама по себе является случайной величиной. Делать выводы о превосходстве одной модели над другой «на глаз» некорректно; необходимо статистическое тестирование. Два основных подхода — аналитический '''тест ДеЛонга (DeLong’s test)''' и '''бутстрап'''.

Для одиночного AUC доверительный интервал можно построить, опираясь на стандартную ошибку, выведенную Хэнли и МакНилом<ref name="hanley"/>, либо непараметрически (через дисперсию U-статистики или бутстрап).

=== Тест ДеЛонга ===
DeLong et al. (1988)<ref name="delong">DeLong E. R., DeLong D. M., Clarke-Pearson D. L. Comparing the areas under two or more correlated receiver operating characteristic curves: a nonparametric approach // Biometrics. — 1988. — Vol. 44, № 3. — P. 837–845.</ref> предложили непараметрический метод сравнения коррелированных AUC, основанный на теории U-статистик. Идея заключается в том, что AUC каждого классификатора можно представить как U-статистику (среднее по всем парам «положительный–отрицательный»). Совместное распределение оценок AUC двух классификаторов, построенных на одних и тех же данных, аппроксимируется нормальным, а ковариационная матрица оценивается по выборке. Статистика теста

::<tex>z = \frac{\mathrm{AUC}_1 - \mathrm{AUC}_2}{\sqrt{\mathrm{Var}(\mathrm{AUC}_1 - \mathrm{AUC}_2)}}</tex>

сравнивается с критическими значениями стандартного нормального распределения. Тест ДеЛонга реализован в специализированных пакетах (например, <code>pROC</code> в R); существует и быстрая версия с вычислительной сложностью <tex>O(N \log N)</tex> (Sun, Xu, 2014)<ref name="sunxu">Sun X., Xu W. Fast implementation of DeLong’s algorithm for comparing the areas under correlated receiver operating characteristic curves // IEEE Signal Processing Letters. — 2014. — Vol. 21, № 11. — P. 1389–1393.</ref>. При использовании на практике необходимо помнить о предположении асимптотической нормальности, которое может нарушаться на малых выборках или при экстремальных значениях AUC, близких к 1.

=== Бутстрап ===
Более универсальный подход — эмпирический [[Бутстрап (статистика)|бутстрап]]<ref name="efron">Efron B., Tibshirani R. J. An introduction to the bootstrap. — CRC press, 1994.</ref>. Из исходного тестового множества многократно (<tex>B = 1\,000\ldots10\,000</tex> раз) генерируются псевдовыборки с возвращением. На каждой бутстрап-выборке вычисляются AUC обоих классификаторов, после чего строится эмпирическое распределение разности <tex>\mathrm{AUC}_1 - \mathrm{AUC}_2</tex>. Доверительный интервал уровня <tex>1-\alpha</tex> получают методом процентилей (или, точнее, скорректированным методом BCa), а двустороннее p-значение — по доле бутстрап-разностей, не превосходящих нуля по модулю в соответствующем направлении. Бутстрап вычислительно затратен, но не опирается на асимптотические предположения и легко обобщается на любые метрики. Именно бутстрап часто рекомендуют в инженерной практике, когда условия применения теста ДеЛонга вызывают сомнения (малые выборки, сильный дисбаланс).

== Проблема калибровки уверенности модели ==
Идеальное значение ROC-AUC, равное 1.0, гарантирует лишь, что все положительные объекты получили больший скор, чем все отрицательные. Это означает '''идеальное ранжирование''', но абсолютно ничего не говорит о корректности самих числовых оценок. Модель может выдавать скоры в диапазоне <tex>[0.1, 0.2]</tex> для положительного класса и <tex>[0.0, 0.1]</tex> для отрицательного, и AUC будет равен 1.0, однако предсказанная «вероятность» для положительных объектов окажется далека от истинной частоты.

В задачах, где требуются не просто метки, а осмысленные вероятности (расчёт ожидаемых потерь в [[Скоринг|кредитном скоринге]], оценка кликов в [[Интернет-реклама|рекламе]], медицинские прогностические модели), необходима '''калибровка скоров'''. Наиболее распространённые методы:
* '''Шкалирование Платта (Platt scaling)'''<ref name="platt">Platt J. Probabilistic outputs for support vector machines and comparisons to regularized likelihood methods // Advances in large margin classifiers. — 1999. — Vol. 10, № 3. — P. 61–74.</ref> — обучение логистической регрессии на выходных скорах модели. Хорошо работает, когда искажение вероятностей носит гладкий монотонный характер.
* '''Изотоническая регрессия'''<ref name="zadrozny">Zadrozny B., Elkan C. Transforming classifier scores into accurate multiclass probability estimates // Proceedings of the eighth ACM SIGKDD international conference on Knowledge discovery and data mining. — 2002. — P. 694–699.</ref> — более гибкий непараметрический метод, способный исправить практически любое монотонное искажение ценой повышения риска переобучения на малых выборках.

Важно понимать, что калибровка не меняет порядка объектов, а значит, сохраняет AUC. Следовательно, высокий AUC является необходимым, но недостаточным условием для доверия вероятностным выходам модели. Для оценки калиброванности применяют [[Brier score|показатель Бриера]], expected calibration error (ECE) и визуальные калибровочные диаграммы (reliability diagrams). Критика Хэнда (2009)<ref name="hand2009">Hand D. J. Measuring classifier performance: a coherent alternative to the area under the ROC curve // Machine Learning. — 2009. — Vol. 77. — P. 103–123.</ref> отчасти связана именно с тем, что AUC игнорирует калибровку и взвешивает ошибки не тем способом, который отвечает нуждам практического принятия решений.

== Связь PR-AUC и Average Precision (AP) ==
[[Кривая Precision-Recall|Кривая точности-полноты]] (PR-кривая) визуализирует компромисс между точностью <tex>\mathrm{Precision} = \mathrm{TP}/(\mathrm{TP} + \mathrm{FP})</tex> и полнотой <tex>\mathrm{Recall} = \mathrm{TPR}</tex>. В отличие от ROC, PR-кривая чрезвычайно чувствительна к дисбалансу классов, так как Precision напрямую зависит от соотношения положительных и отрицательных примеров. Площадь под PR-кривой (PR-AUC) даёт агрегированную оценку качества, однако её вычисление методом трапеций приводит к систематическому смещению.

Причина в том, что PR-кривая не является функцией от Recall в классическом смысле: одному значению Recall может соответствовать несколько значений Precision, а для корректной интерполяции между точками, полученными по конечной выборке, необходимо специальное определение. На практике повсеместно используется '''Average Precision (AP)''' — стандартная оценка площади под PR-кривой, не использующая линейную интерполяцию. Для выборки, отсортированной по убыванию скора, AP вычисляется как

::<tex>\mathrm{AP} = \sum_{k=1}^{N} \bigl( \mathrm{Recall}_k - \mathrm{Recall}_{k-1} \bigr) \, \mathrm{Precision}_k, \qquad \mathrm{Recall}_0 = 0,</tex>

где <tex>\mathrm{Recall}_k, \mathrm{Precision}_k</tex> — значения полноты и точности после <tex>k</tex>-го объекта. Суммирование ведётся по всем <tex>N</tex> объектам выборки, однако разность <tex>\mathrm{Recall}_k - \mathrm{Recall}_{k-1}</tex> отлична от нуля только в том случае, если <tex>k</tex>-й объект действительно принадлежит к положительному классу (для отрицательных объектов полнота не меняется). Иными словами, AP усредняет Precision по тем шагам, на которых Recall увеличивается.

Приведённая формула (так называемая right-endpoint оценка) реализована, например, в функции <code>average_precision_score</code> библиотеки [[scikit-learn]]. В задачах информационного поиска и компьютерного зрения используют близкие, но не тождественные варианты с интерполяцией: 11-точечную интерполированную AP в Pascal VOC2007 и 101-точечную в COCO. Метод трапеций для PR-кривой даёт смещённую (как правило, завышенную) оценку, особенно заметную на малых выборках и при сильном дисбалансе, поэтому в ответственной практике следует использовать именно AP в одном из стандартизованных вариантов.

== Ограничения и критика ==
Несмотря на статус стандартной метрики, ROC-AUC подвергается обоснованной критике.
* '''Усреднение по всем порогам.''' AUC агрегирует информацию обо всём диапазоне FPR, тогда как практический интерес часто ограничен малой областью (например, FPR < 0.05). Частичный AUC (pAUC) смягчает проблему, но требует экспертного выбора границ.
* '''Неразличимость стоимостей ошибок.''' AUC приписывает одинаковую важность ложноположительным и ложноотрицательным ошибкам во всех точках, что редко отражает реальные потери. Хэнд (2009)<ref name="hand2009"/> показал, что AUC можно интерпретировать как среднее качество классификатора по некоторому скрытому распределению стоимостей, которое зависит от самой модели, ставя под сомнение корректность сравнения различных классификаторов одной этой метрикой; в качестве когерентной альтернативы он предложил так называемую '''H-меру (H-measure)'''.
* '''Слабая чувствительность к «хвостам».''' Изменения скора у самых высокоуверенных объектов почти не влияют на AUC, хотя могут быть критически важны в эксплуатации.
* '''Маскировка проблем миноритарного класса''' (описана в разделе о дисбалансе).

В силу перечисленных ограничений при выборе метрики для проекта следует исходить из контекста: в задачах с резким дисбалансом и высокой ценой ложных срабатываний предпочтение отдаётся AP, а при фиксированных требованиях по FPR — <tex>F_\beta</tex> или pAUC.

== Применение в машинном обучении ==
ROC-AUC широко применяется для:
* '''Сравнения моделей''' в исследовательских экспериментах и на лидербордах соревнований ([[Kaggle]]). Пороговая инвариантность позволяет сопоставлять качество ранжирования без привязки к конкретному порогу.
* '''Отбора признаков''': AUC вычисляется для каждого отдельного признака как простейшего одномерного классификатора, выявляя наиболее информативные переменные.
* '''Оптимизации гиперпараметров''': многие фреймворки ([[scikit-learn]], [[XGBoost]], [[LightGBM]]) поддерживают максимизацию AUC напрямую или через ранжирующие функции потерь (например, [[LambdaRank]]). Существуют и алгоритмы прямой оптимизации AUC через попарные суррогатные функции потерь (Cortes, Mohri, 2004<ref name="cortes">Cortes C., Mohri M. AUC optimization vs. error rate minimization // Advances in Neural Information Processing Systems (NIPS). — 2004. — Vol. 16. — P. 313–320.</ref>; RankBoost).
* '''Мониторинга качества''' моделей в промышленной эксплуатации — совместно с анализом PR-кривых, калибровочных графиков и статистических тестов на стабильность.

При любом применении AUC не следует рассматривать как единственную и исчерпывающую метрику: ответственный анализ обязательно привлекает несколько взаимодополняющих показателей и визуализаций.

== Историческая справка ==
Термин «Receiver Operating Characteristic» зародился в 1950-х годах в [[Теория обнаружения сигнала|теории обнаружения сигналов]], выросшей из исследований [[Радиолокация|радиолокационных]] систем времён Второй мировой войны. Оператор приёмника (receiver) должен был отличать отражённый от цели сигнал от шума. Питерсон, Бёрдсолл и Фокс (1954)<ref name="peterson">Peterson W. W., Birdsall T. G., Fox W. C. The theory of signal detectability // Transactions of the IRE Professional Group on Information Theory. — 1954. — Vol. 4, № 4. — P. 171–212.</ref> ввели кривую, описывающую компромисс между вероятностью правильного обнаружения и вероятностью ложной тревоги при изменении порога. Эта кривая получила название «характеристика работы приёмника» (receiver operating characteristic).

В 1960–1970-х годах аппарат теории обнаружения проник в психофизику (Грин и Светс)<ref name="green">Green D. M., Swets J. A. Signal Detection Theory and Psychophysics. — New York: Wiley, 1966.</ref> и медицинскую диагностику (Ластед)<ref name="lusted">Lusted L. B. Decision-making studies in patient management // New England Journal of Medicine. — 1971. — Vol. 284, № 8. — P. 416–424.</ref>, где AUC стал стандартным показателем диагностической точности. В машинное обучение ROC-анализ пришёл в конце 1990-х — начале 2000-х годов благодаря работам Брэдли (1997)<ref name="bradley">Bradley A. P. The use of the area under the ROC curve in the evaluation of machine learning algorithms // Pattern Recognition. — 1997. — Vol. 30, № 7. — P. 1145–1159.</ref>, Провоста и Фосетта (2001)<ref name="provost">Provost F., Fawcett T. Robust classification for imprecise environments // Machine Learning. — 2001. — Vol. 42, № 3. — P. 203–231.</ref> и быстро занял положение одного из ключевых инструментов сравнения бинарных классификаторов.

== См. также ==
* [[ROC-кривая]]
* [[Кривая Precision-Recall]]
* [[Статистика Манна-Уитни]]
* [[Несбалансированные данные]]
* [[Коэффициент Джини]]
* [[Скоринг]]
* [[Теория обнаружения сигнала]]
* [[Бутстрап (статистика)]]
* [[Калибровка вероятностей]]

== Примечания ==
<references/>

== Литература ==
* Fawcett T. An introduction to ROC analysis // Pattern Recognition Letters. — 2006. — Vol. 27, № 8. — P. 861–874.
* Hanley J. A., McNeil B. J. The meaning and use of the area under a receiver operating characteristic (ROC) curve // Radiology. — 1982. — Vol. 143, № 1. — P. 29–36.
* Bamber D. The area above the ordinal dominance graph and the area below the receiver operating characteristic graph // Journal of Mathematical Psychology. — 1975. — Vol. 12, № 4. — P. 387–415.
* Davis J., Goadrich M. The relationship between Precision-Recall and ROC curves // Proceedings of the 23rd International Conference on Machine Learning (ICML). — 2006. — P. 233–240.
* Saito T., Rehmsmeier M. The precision-recall plot is more informative than the ROC plot when evaluating binary classifiers on imbalanced datasets // PLoS ONE. — 2015. — Vol. 10, № 3. — e0118432.
* Cortes C., Mohri M. AUC optimization vs. error rate minimization // Advances in Neural Information Processing Systems (NIPS). — 2004. — Vol. 16. — P. 313–320.
* Hand D. J. Measuring classifier performance: a coherent alternative to the area under the ROC curve // Machine Learning. — 2009. — Vol. 77. — P. 103–123.
* Hand D. J., Till R. J. A simple generalisation of the area under the ROC curve for multiple class classification problems // Machine Learning. — 2001. — Vol. 45. — P. 171–186.
* Provost F., Fawcett T. Robust classification for imprecise environments // Machine Learning. — 2001. — Vol. 42, № 3. — P. 203–231.
* DeLong E. R., DeLong D. M., Clarke-Pearson D. L. Comparing the areas under two or more correlated receiver operating characteristic curves: a nonparametric approach // Biometrics. — 1988. — Vol. 44, № 3. — P. 837–845.
* Sun X., Xu W. Fast implementation of DeLong’s algorithm for comparing the areas under correlated receiver operating characteristic curves // IEEE Signal Processing Letters. — 2014. — Vol. 21, № 11. — P. 1389–1393.
* McClish D. K. Analyzing a portion of the ROC curve // Medical Decision Making. — 1989. — Vol. 9, № 3. — P. 190–195.
* Muschelli J. ROC and AUC with a binary predictor: a potentially misleading metric // Journal of Classification. — 2020. — Vol. 37. — P. 696–708.
* Efron B., Tibshirani R. J. An introduction to the bootstrap. — CRC press, 1994.
* Platt J. Probabilistic outputs for support vector machines and comparisons to regularized likelihood methods // Advances in large margin classifiers. — 1999. — Vol. 10, № 3. — P. 61–74.
* Zadrozny B., Elkan C. Transforming classifier scores into accurate multiclass probability estimates // Proceedings of the eighth ACM SIGKDD international conference on Knowledge discovery and data mining. — 2002. — P. 694–699.

Сценарный анализ/Альтернативный вариант

2026-06-18T11:32:39Z

Описание изменений: Новая: {{well|Статья написана с использованием LLM '''DeepSeek''' в быстром режиме и проверена участником ~~~~ В быстром ...

{{well|Статья написана с использованием LLM '''DeepSeek''' в быстром режиме и проверена участником [[Участник:Vokov|К.В.Воронцов]] 15:32, 18 июня 2026 (MSD)
В быстром режиме качество статьи получилось ниже, чем в экспертном. Вики-разметка не всегда соблюдалась.
}}

= Сценарный анализ =

'''Сценарный анализ''' (Scenario Analysis) — это методология стратегического планирования и прогнозирования, предназначенная для формирования и оценки альтернативных траекторий развития сложных систем в условиях радикальной неопределённости. В отличие от традиционного прогнозирования, стремящегося дать единственный точечный прогноз, сценарный анализ исследует множество ''правдоподобных будущих'' (plausible futures), позволяя лицу, принимающему решения, оценить возможные последствия различных стратегий и подготовиться к широкому спектру исходов.

В контексте машинного обучения и анализа данных сценарный анализ приобретает особое значение: он позволяет не только предсказывать, но и понимать, ''как'' различные вмешательства (интервенции) могут повлиять на целевую систему, а также количественно оценивать связанные с этим риски и неопределённости.

== Определение и ключевые понятия ==

Сценарный анализ представляет собой «дисциплинированный метод воображения возможных будущих, в которых могут разворачиваться организационные решения». Ключевые элементы методологии включают:

* '''Сценарий''' (Scenario) — внутренне непротиворечивое описание возможной последовательности событий, ведущей от текущего состояния к некоторому будущему состоянию системы. Сценарий — это не прогноз, а ''инструмент для исследования'' того, как различные факторы и решения могут сформировать будущее.

* '''Неопределённость''' (Uncertainty) — центральный объект анализа. В отличие от риска, который предполагает известное распределение вероятностей, сценарный анализ часто имеет дело с ''глубокой неопределённостью'' (deep uncertainty), где сами вероятностные распределения неизвестны или нестационарны.

* '''Ключевые неопределённости''' (Key Uncertainties) и '''предопределённые элементы''' (Predetermined Elements) — два класса факторов, на которых строится сценарное планирование. Первые — это факторы, исход которых принципиально непредсказуем (например, скорость технологического прогресса), вторые — факторы, чьё будущее значение можно предвидеть с высокой уверенностью (например, демографические тренды).

== Классификация методов сценарного анализа ==

Методы сценарного анализа традиционно делятся на '''качественные''' и '''количественные'''. На практике эти подходы часто комбинируются, образуя гибридные методологии.

=== Качественные методы ===

Качественные сценарии — это прежде всего «литературные упражнения», направленные на создание целостных и интегрированных набросков будущих видений и убедительных описаний последовательностей событий, которые могут привести к этим будущим. Их ключевое преимущество — способность охватывать факторы, которые трудно или невозможно квантифицировать: ценности, культурные сдвиги, внезапные изменения системы, сюрпризы.

Основные качественные методики:

* '''Метод Дельфи''' (Delphi Method) — итеративный процесс экспертного опроса с обратной связью, направленный на достижение консенсуса относительно будущих тенденций и событий. В сценарном анализе Дельфи часто используется на начальных этапах для выявления ключевых факторов и неопределённостей.

* '''Интуитивное логическое построение сценариев''' (Intuitive Logics) — наиболее распространённый подход, разработанный в Shell и популяризованный Шварцем и ван дер Хейденом. Он включает выявление движущих сил, ранжирование их по важности и неопределённости, и построение матрицы 2×2 из двух наиболее критических неопределённостей.

* '''Анализ перекрёстного влияния''' (Cross-Impact Analysis) — метод, позволяющий экспертам оценивать, как наступление одного события изменяет вероятность наступления других. Результаты обычно представляются в виде матрицы перекрёстного влияния (Cross-Impact Matrix, CIM).

* '''SWOT-анализ и PESTEL-анализ''' — инструменты стратегического анализа, часто используемые как подготовительный этап для идентификации факторов внешней среды.

=== Количественные методы ===

Количественные сценарии опираются на математические модели и численные данные, позволяя получать измеримые оценки последствий различных траекторий развития. Они незаменимы там, где требуется точность и возможность сравнения альтернатив по численным критериям.

Основные количественные методики:

* '''Имитационное моделирование методом Монте-Карло''' (Monte Carlo simulation) — наиболее распространённый подход, при котором многократно генерируются случайные выборки из распределений ключевых параметров, и для каждой выборки вычисляется системный результат.

* '''Анализ чувствительности''' (Sensitivity Analysis) — исследование того, как вариации входных параметров влияют на выходные показатели модели.

* '''Анализ «что-если»''' (What-If Analysis) — сценарная техника, при которой вносятся гипотетические изменения во временной ряд, и сравниваются прогнозы, порождённые этими изменениями, с базовым сценарием. В машинном обучении это часто реализуется через [[контрфактуальное объяснение]] (Counterfactual Explanation) моделей.

* '''Байесовские методы''' — включая байесовские аддитивные деревья регрессии (Bayesian Additive Regression Trees, BART), байесовские нейронные сети (Bayesian Neural Networks, BNN) и вариационные байесовские методы, которые обеспечивают формальное представление априорной неопределённости и позволяют строить условные прогнозы.

* '''Анализ баланса перекрёстного влияния''' (Cross-Impact Balance Analysis, CIB) — вероятностный метод, генерирующий внутренне непротиворечивые траектории с использованием стохастических возмущений для оценки устойчивости и разнообразия путей развития.

=== Гибридные подходы ===

В современной практике всё большее распространение получают гибридные методики, сочетающие силу качественного сценарного мышления с точностью количественного моделирования. Примером служит метод Q2, в котором экспертные оценки, собранные через Дельфи и интервью, анализируются с помощью кластерного анализа количественных данных и качественного контент-анализа.

== Сценарный анализ на основе графа вариантов развития ==

Одним из наиболее строгих и наглядных подходов к количественному сценарному анализу является '''построение графа сценариев''' (Scenario Graph) — ориентированного графа, в котором вершины представляют возможные состояния системы, а рёбра — переходы между ними, сопровождаемые оценками вероятностей.

=== Структура графа сценариев ===

В формальной постановке граф сценариев <tex>G = (V, E, P)</tex> определяется следующим образом:

* <tex>V = \{v_1, v_2, ..., v_n\}</tex> — множество вершин, каждая из которых соответствует некоторому состоянию системы или ключевому событию на временной оси развития.
* <tex>E \subseteq V \times V</tex> — множество направленных рёбер, каждое из которых представляет возможный переход от одного состояния к другому.
* <tex>P: E \rightarrow [0, 1]</tex> — функция, ставящая в соответствие каждому ребру вероятность перехода, причём для каждой вершины <tex>v</tex> сумма вероятностей всех исходящих рёбер равна 1 (условие нормировки).

Такой граф может быть как '''ациклическим''' (Directed Acyclic Graph, DAG) — когда развитие событий предполагает необратимое движение вперёд во времени, так и содержать циклы — в случаях, когда система может возвращаться в ранее пройденные состояния.

=== Оценивание вероятностей ===

Оценка вероятностей переходов в графе сценариев может производиться различными способами:

# '''Экспертные оценки''' — наиболее распространённый метод на начальных этапах, когда статистических данных недостаточно. Эксперты назначают вероятности для каждого возможного перехода, часто с использованием методов согласования, таких как Дельфи.

# '''Статистическое оценивание на исторических данных''' — если доступны ретроспективные данные о развитиях аналогичных систем, вероятности переходов могут быть оценены как частоты соответствующих событий в прошлом.

# '''Машинное обучение''' — современные подходы используют [[байесовские сети]] (Bayesian Networks) и [[скрытые марковские модели]] (Hidden Markov Models) для оценивания вероятностей переходов на основе наблюдаемых данных. В частности, байесовские сети позволяют моделировать сложные зависимости между множеством факторов и событий, обеспечивая '''вероятностный вывод''' (probabilistic inference) о наиболее вероятных траекториях развития.

# '''Имитационное моделирование''' — в случаях, когда система может быть описана с помощью генеративной модели, вероятности переходов оцениваются путём многократного протона сценариев (например, методом Монте-Карло).

=== Пример: энергетическая отрасль ===

В работе Дебиева М.В. (2016) представлен граф возможных сценариев развития региональной энергетики на примере Чеченской Республики. В качестве весов рёбер графа выступают вероятности развития отдельных энергетических компаний, а также отрасли в целом по соответствующим направлениям. Такой подход позволяет не только визуализировать множество возможных траекторий развития, но и количественно оценивать риски и ожидаемые результаты каждого из возможных исходов.

== Качественный сценарный анализ: пример для искусственного интеллекта ==

Продемонстрируем применение качественных методов сценарного анализа на примере развития [[искусственного интеллекта]] (Artificial Intelligence, AI). Этот пример иллюстрирует, как экспертные методы позволяют выявлять спектр возможных будущих и связанных с ними возможностей и угроз.

=== Сценарии развития ИИ ===

Исследовательские организации и аналитические центры регулярно публикуют сценарные прогнозы развития ИИ. Один из наиболее структурированных подходов предложен Всемирным экономическим форумом (WEF) в отчёте ''Four Futures for Jobs in the New Economy: AI and Talent in 2030''. Сценарии строятся на пересечении двух ключевых неопределённостей: '''скорости развития технологии''' и '''готовности людей к использованию её возможностей''':

{|
| '''Сценарий''' || '''Скорость развития ИИ''' || '''Готовность людей''' || '''Характеристика'''
|-
| '''Supercharged Progress''' (Сверхбыстрый прогресс) || Высокая || Высокая || Резкий рост производительности, люди как оркестраторы ИИ-агентов, но высокая перестройка рынка труда
|-
| '''Age of Displacement''' (Эра вытеснения) || Высокая || Низкая || Массовая автоматизация (ИИ >50% задач), высокая безработица, восприятие ИИ как угрозы
|-
| '''Co-Pilot Economy''' (Экономика ко-пилотов) || Низкая || Высокая || Поступательное развитие, ИИ берёт на себя рутину, люди сохраняют управленческие и социальные функции
|-
| '''Stalled Progress''' (Буксующий прогресс) || Низкая || Низкая || Умеренный и неравномерный рост производительности, стагнация спроса на труд
|}

Альтернативную классификацию предлагает исследование ВШЭ для российского IT-рынка до 2028 года, выделяя сценарии: «Цифровой ковчег» (эффективная господдержка и развитие собственных технологий), «Синергия инноваций» (технологические прорывы через международное партнёрство), «Цифровой дарвинизм» (естественное развитие через рыночные механизмы) и «Код изоляции» (пессимистичный сценарий изоляции и стагнации).

ОЭСР (OECD) в своём анализе возможных траекторий ИИ до 2030 года выделяет четыре сценария — от заторможенного до ускоренного развития, используя экспертные оценки и бета-индикаторы возможностей ИИ для информирования политических решений.

=== Анализ возможностей и угроз ===

Качественный анализ каждого сценария позволяет выявить связанные с ним возможности и угрозы:

'''Возможности:'''
* '''Экономический рост''' — во всех сценариях, кроме наиболее пессимистичных, ИИ обеспечивает рост производительности и автоматизацию рутинных задач.
* '''Научный прогресс''' — ИИ ускоряет исследования в медицине, материаловедении, климатологии и других областях.
* '''Новые рынки и профессии''' — появление профессий, связанных с управлением ИИ-агентами, разработкой этических стандартов, аудитом алгоритмов.

'''Угрозы:'''
* '''Безработица и социальное неравенство''' — в сценариях с высокой скоростью автоматизации и низкой готовностью людей происходит массовое вытеснение работников. Асимметрия в возможностях ИИ между странами угрожает усилением глобального неравенства.
* '''Зависимость от иностранных технологий''' — может представлять угрозу национальной безопасности и экономической независимости.
* '''Этические и регуляторные риски''' — недостаток прозрачности и объяснимости ([[объяснимый ИИ]], Explainable AI) решений, принимаемых ИИ-системами, создаёт риски дискриминации и потери контроля.
* '''Риски безопасности''' — использование ИИ в автономных системах вооружений и кибербезопасности создаёт новые уязвимости.

Этот пример демонстрирует, как качественные сценарные методы позволяют структурировать сложное пространство неопределённостей, выявлять критические развилки и готовить стратегии реагирования для каждой из возможных траекторий.

== Применение в бизнесе и промышленности ==

Сценарный анализ является одним из ключевых инструментов стратегического управления в условиях неопределённости. В последние годы его применение активно трансформируется под влиянием методов машинного обучения.

=== Бизнес-применения ===

* '''Корпоративное стратегическое планирование''' — компании используют сценарный анализ для оценки альтернативных стратегий развития в условиях экономической неопределённости, геополитических рисков и технологических изменений. Например, в исследовании, посвящённом ПАО «Яковлев» (авиастроение), разработаны альтернативные сценарии развития бизнес-стратегии.

* '''Финансовый сектор''' — банки используют ИИ-сценарии для стресс-тестирования кредитных портфелей при различных экономических условиях: моделирование изменений процентных ставок, колебаний кредитного риска и макроэкономических спадов.

* '''Оценка инвестиционных проектов''' — сценарный анализ позволяет количественно оценивать риски и ожидаемую доходность инвестиций при различных вариантах развития внешней среды.

* '''Прогнозирование устойчивости бизнеса''' — в условиях высокотурбулентной экономики сценарный подход в сочетании с логит-моделированием применяется для прогнозирования финансовой устойчивости предприятий (например, в цветной металлургии).

=== Промышленность ===

* '''Нефтяное машиностроение''' — сценарный подход применяется для прогнозирования отраслевого развития с выявлением наиболее значимых факторов и их взаимовлияния.

* '''Энергетика''' — сценарный анализ используется для оценки эффективности проектов (например, «умные сети») по трём различным сценариям развития, а также для моделирования цифровой трансформации цепей поставок нефти.

* '''Машиностроение''' — на примере ОАО «Львовский локомотиворемонтный завод» продемонстрировано прогнозирование с помощью [[искусственных нейронных сетей]] (Artificial Neural Networks) в рамках сценарного подхода.

* '''Угледобывающая промышленность''' — метод сценариев применяется для разработки стратегических альтернатив развития предприятий на основе анализа ключевых факторов внешней среды.

=== Роль машинного обучения ===

Интеграция машинного обучения в сценарный анализ открывает новые возможности:

* '''Автоматическая генерация сценариев''' — алгоритмы машинного обучения могут генерировать сотни потенциальных сценариев, анализируя большие объёмы данных и выявляя скрытые паттерны.

* '''Улучшенное прогнозирование''' — ML-модели непрерывно уточняют прогнозы на основе новых экономических индикаторов, рыночных трендов и исторических данных.

* '''Shell''' — одна из пионерских компаний в области сценарного планирования — сегодня использует модели машинного обучения для тестирования альтернативных траекторий спроса на энергию, что обеспечивает более быструю итерацию и более глубокую связь между глобальными данными и построением сценариев.

* '''Причинный анализ''' (Causal Analysis) — в отличие от традиционных предсказательных моделей, причинный сценарный анализ позволяет тестировать различные вмешательства и оценивать их эффекты, что критически важно для принятия обоснованных решений. Это особенно актуально при внедрении новых ИИ-функций, настройке алгоритмов ценообразования или реорганизации клиентских процессов.

== Сценарный анализ для крупных объектов ==

Сценарный анализ успешно применяется для исследования развития макрообъектов — от отдельных отраслей до целых стран и научных областей.

=== Отраслевой уровень ===

Как уже упоминалось, сценарный подход широко используется для прогнозирования развития энергетической отрасли, нефтяного машиностроения и других промышленных секторов. Ключевая задача на этом уровне — выявление системных рисков и возможностей, оценка влияния макроэкономических и технологических факторов.

=== Страновой уровень ===

Исследование ВШЭ, представившее четыре сценария развития российского IT-рынка до 2028 года, является характерным примером странового сценарного анализа. Аналогичные подходы применяются для анализа рынка труда с учётом влияния генеративного ИИ в отраслевом разрезе.

На международном уровне RAND Corporation разработала сценарии развития [[искусственного общего интеллекта]] (Artificial General Intelligence, AGI), рассматривая варианты, в которых AGI усиливает США, усиливает конкурентов США, вызывает значительный геополитический сдвиг или приводит к прерыванию разработки AGI. Другое исследование RAND моделирует экономические последствия двух контрастных граничных сценариев: «Сценарий Агента» (возникновение AGI-способностей) и «Сценарий Мира Инструментов» (ИИ как множество узких специализированных систем).

=== Научная область ===

В научной сфере сценарный анализ применяется для исследования будущего вычислительных технологий и их влияния на общество. Систематический обзор использования сценарных методов для изучения будущего вычислительных технологий показывает, что эти подходы становятся стандартным инструментом форсайта в компьютерных науках.

== Заключение ==

Сценарный анализ представляет собой мощный и гибкий инструментарий для навигации в условиях неопределённости. Его ценность для специалистов в области машинного обучения и анализа данных состоит в следующем:

# '''Расширение прогностических возможностей''' — сценарный анализ дополняет предсказательные модели исследованием того, ''как'' различные вмешательства и внешние факторы могут изменить будущую траекторию системы.

# '''Количественная оценка неопределённости''' — вероятностные графовые модели и байесовские методы позволяют выражать неопределённость в строгой математической форме.

# '''Структурирование сложных решений''' — качественные сценарные методики помогают выявлять ключевые неопределённости и разрабатывать стратегии, устойчивые к широкому спектру будущих состояний.

# '''Интеграция с ИИ''' — современные методы машинного обучения открывают возможности для автоматизации генерации сценариев, непрерывного обновления прогнозов и причинного анализа последствий решений.

Как отмечается в литературе, сценарный анализ эволюционирует от периодических плановых упражнений к интегрированной бизнес-способности, поддерживаемой ИИ-системами. Для инженеров и исследователей в области машинного обучения владение этой методологией становится не просто желательным, но необходимым навыком для создания систем, способных принимать обоснованные решения в реальном мире.

== Список литературы ==

# Дебиев М.В. Анализ эффективности развития региональной энергетики на основе сценарного подхода // Инженерный вестник Дона. 2016.

# Суворова М.И., Кобозева М.В., Соколова Е.Г., Толдова С.Ю. Извлечение сценарной информации из текстов. Часть 1. Постановка задачи и обзор методов // Искусственный интеллект и принятие решений. 2020. Выпуск 1. С. 17–26.

# Schoemaker P.J.H. Scenario Planning: A Tool for Strategic Thinking // Sloan Management Review. 1995. Vol. 36. No. 2. P. 25–40.

# van der Heijden K. Scenarios: The Art of Strategic Conversation. 2nd ed. Wiley, 2005.

# Integrating artificial intelligence into scenario analysis: a validated framework for strategic planning under economic uncertainty // ScienceDirect. 2025.

# Causal Scenario Analysis vs. Traditional Predictive Approaches // Communications of the ACM. 2026.

# Four Futures for Jobs in the New Economy: AI and Talent in 2030 // World Economic Forum. 2026.

# Exploring possible AI trajectories through 2030 // OECD. 2026.

# Artificial General Intelligence and the Rise and Fall of Nations // RAND Corporation. 2025.

# Сценарный анализ с многомерными байесовскими моделями машинного обучения // SciNetwork. 2025.

# IPCC Guidelines on Qualitative Scenarios // Intergovernmental Panel on Climate Change.

Сценарный анализ

2026-06-18T10:03:06Z

Описание изменений:

{{well|Статья написана с использованием LLM '''DeepSeek-V4 Preview''' и проверена участником [[Участник:Vokov|К.В.Воронцов]] 14:03, 18 июня 2026 (MSD)}}
{{TOCright}}

'''Сценарный анализ''' (англ. scenario analysis) — метод оценки влияния нескольких согласованных изменений в условиях или предположениях на результат работы [[Модель (машинное обучение)|модели]], системы или процесса. В отличие от [[Анализ чувствительности|анализа чувствительности]], который изучает реакцию на малое изменение одной переменной при фиксированных остальных, сценарный анализ исследует комплексные, правдоподобные комбинации изменений нескольких факторов. В [[Машинное обучение|машинном обучении]] сценарный анализ применяется для проверки устойчивости предсказаний, оценки [[Риск-модель|рисков модели]] при изменениях [[Распределение данных|распределения данных]], генерации [[Контрфактические объяснения|контрфактических объяснений]] и построения моделей, устойчивых к наихудшему сценарию.

== Основная идея ==
Сценарный анализ исходит из того, что будущее или неизвестные условия эксплуатации модели редко определяются одним фактором. Вместо точечного прогноза рассматривается несколько контрастных, но внутренне непротиворечивых картин мира — сценариев, — каждый из которых характеризуется совместной реализацией ключевых переменных. Для каждого сценария вычисляются интересующие метрики (точность, ожидаемые потери, экономический эффект), после чего результаты сравниваются для выявления уязвимостей и принятия решений.

В сообществе машинного обучения под сценарным анализом нередко понимают не только стратегическое планирование на макроуровне, но и прикладные техники: поведенческое тестирование моделей через набор тестовых сценариев, генерацию синтетических данных по заданным сценариям для оценки [[Устойчивость (машинное обучение)|робастности]], а также [[Оптимизация наихудшего случая|оптимизацию с учётом наихудшего сценария]] (worst-case optimization).

== Исторический контекст ==
Метод формализовался в середине XX века в военном планировании: [[RAND Corporation]] использовала сценарный подход для анализа ядерного противостояния. В 1970‑х годах [[Shell]] под руководством Пьера Вака (Pierre Wack) внедрила сценарное планирование как инструмент корпоративной стратегии, что помогло компании подготовиться к нефтяному кризису 1973 года<ref>{{книга |автор=Schwartz P. |заглавие=The Art of the Long View: Planning for the Future in an Uncertain World |место=New York |издательство=Currency Doubleday |год=1991 |isbn=978-0-385-26732-8}}</ref><ref>{{статья |автор=Wack P. |заглавие=Scenarios: Uncharted Waters Ahead |издание=Harvard Business Review |год=1985 |том=63 |номер=5 |страницы=73–89}}</ref>. С 1990‑х годов сценарный анализ проник в финансы, экологию, а с развитием вычислительной техники — в анализ данных и машинное обучение. Сегодня он реализован в инструментах вроде [[What-If Tool]] и является частью методологии [[Ответственный ИИ|ответственного ИИ]].

== Методология ==
Типичный цикл сценарного анализа включает следующие шаги:

# '''Определение цели и ключевых показателей.''' Например, ошибка модели на отложенных данных, ожидаемая прибыль или уровень справедливости.
# '''Выбор факторов неопределённости.''' В ML это могут быть распределение признаков, доля пропусков, частота редких классов, поведение пользователей, экономические индикаторы.
# '''Построение сценариев.''' На основе экспертных знаний или статистических моделей формируются 3–5 резко различающихся, но возможных комбинаций значений факторов. Классический набор включает «базовый», «оптимистичный» и «пессимистичный» сценарии, но могут строиться и более тонкие сетки.
# '''Прогон модели или симуляции.''' Для каждого сценария генерируются или отбираются подмножества данных, на которых оцениваются метрики. В сложных случаях используется [[Имитационное моделирование]] или [[Метод Монте-Карло]] с заданной корреляционной структурой.
# '''Анализ результатов.''' Сравнение метрик по сценариям выявляет, при каких условиях модель становится неприемлемо неточной или несправедливой. Это позволяет наметить меры по повышению устойчивости или смягчению рисков.

== Отличие от смежных методов ==
* '''[[Анализ чувствительности]]''' (sensitivity analysis) изучает, как малые приращения одного фактора влияют на выход. Сценарный анализ оперирует крупными, часто дискретными изменениями сразу нескольких переменных.
* '''[[Анализ «что-если»]]''' (what-if analysis) близок по духу, но чаще подразумевает одношаговое изменение одной переменной (например, «что, если признак <tex>x</tex> увеличится на 10 %?»). Сценарный анализ предлагает целостные истории («что, если одновременно вырастет безработица, упадут процентные ставки и изменится регуляторный режим?»).
* '''[[Метод Монте-Карло]]''' (Monte Carlo simulation) генерирует тысячи случайных комбинаций согласно заданным распределениям вероятностей. Сценарный анализ вместо этого опирается на небольшое число осмысленных конфигураций, часто без вероятностных весов, что облегчает интерпретацию и коммуникацию результатов.
* '''[[Стресс-тестирование]]''' (stress testing) по сути является подмножеством сценарного анализа, фокусирующимся на экстремальных, маловероятных, но разрушительных сценариях.

== Качественные и количественные методы сценарного анализа ==
Методики сценарного анализа принято делить на две большие группы: качественные и количественные. Деление отражает не столько наличие чисел, сколько способ построения и обоснования сценариев.

=== Качественные методы ===
В основе лежат экспертные суждения, нарративы и логические цепочки. Главная цель — расширить кругозор лиц, принимающих решения, и избежать «туннельного зрения», а не получить численные оценки вероятностей. Наиболее влиятельной школой является '''интуитивная логика''' (Intuitive Logics), разработанная в Shell и SRI International. Она предполагает:
* выявление движущих сил и ключевых неопределённостей;
* построение двумерной матрицы на двух ортогональных осях неопределённостей;
* написание нарративов для каждого квадранта — развёрнутых историй, описывающих путь в данный сценарий.
Другие качественные подходы: '''морфологический анализ''' (Zwicky, 1969) — систематический перебор всех возможных комбинаций параметров и отсечение несовместимых; '''метод Дельфи''' — итеративный опрос экспертов для достижения консенсуса по сценариям; '''полевой анализ аномалий''' (Field Anomaly Relaxation, FAR) — выявление маловероятных, но высокозначимых событий.

=== Количественные методы ===
Количественные подходы дополняют экспертизу математическими моделями и данными.
* '''Кросс-импакт анализ''' (cross-impact analysis) — метод, где эксперты оценивают не только вероятности отдельных событий, но и условные вероятности их взаимного влияния. На основе матрицы кросс-влияний рассчитываются согласованные вероятности сценариев (Gordon, Hayward, 1968).
* '''Имитационное моделирование и системная динамика''' — построение дифференциальных или агентных моделей, прогоняемых при разных начальных условиях и параметрах.
* '''Байесовские сети сценариев''' (Cinar, Kayakutlu, 2010) — вероятностная графическая модель, где узлы соответствуют ключевым переменным, а дуги — причинным связям. Сценарий определяется как конфигурация состояний узлов, а сеть позволяет вычислять совместные и условные вероятности.
* '''Стохастическое программирование и Distributionally Robust Optimization''' — оптимизация решений, устойчивых к наихудшему распределению параметров внутри заданного «облака неопределённости» (см. раздел «[[Сценарный анализ#Distributionally Robust Optimization (DRO)|Применение в машинном обучении]]»).

== Применение в бизнесе и промышленности ==
Сценарный анализ широко востребован в корпоративном стратегическом управлении и промышленном планировании.

* '''Энергетический сектор.''' Классический пример — сценарии [[Royal Dutch Shell|Shell]], которые с 1970‑х годов помогают компании оценивать долгосрочные тренды. В 2013 году Shell опубликовала сценарии «New Lens Scenarios» (Mountains и Oceans), исследуя влияние геополитики, климатической политики и технологий на энергетический баланс до 2100 года. Международное энергетическое агентство (МЭА) ежегодно выпускает World Energy Outlook с тремя сценариями: STEPS (заявленная политика), APS (объявленные обязательства) и NZE (чистый ноль к 2050), которые служат ориентиром для инвестиций по всему миру.
* '''Автомобильная промышленность.''' Производители автомобилей используют сценарный анализ для планирования перехода на электромобили. Например, сценарии BloombergNEF (Electric Vehicle Outlook) сравнивают траектории проникновения электромобилей при разной жёсткости экологического регулирования, темпах удешевления батарей и развитии зарядной инфраструктуры.
* '''Финансовый сектор.''' Банки и регуляторы применяют количественный сценарный анализ в форме [[стресс-тестирование|стресс-тестирования]]. Европейское банковское управление (EBA) и Банк России задают макроэкономические сценарии (базовый, неблагоприятный, кризисный) и проверяют достаточность капитала банков при их реализации. Эти процедуры опираются на эконометрические модели и исторические аналогии.

== Сценарный анализ крупных систем: отрасль, наука, страна ==
Сценарный подход широко применяется для анализа долгосрочного развития целых отраслей, научных областей и национальных экономик.

* '''Климатические сценарии.''' Межправительственная группа экспертов по изменению климата ([[IPCC]]) разработала систему Shared Socioeconomic Pathways (SSP) — пять глобальных сценариев социально-экономического развития до 2100 года, различающихся демографией, экономическим ростом, технологическим прогрессом и уровнем кооперации. В сочетании с Representative Concentration Pathways (RCP) они задают входные данные для климатических моделей и служат научной основой для международных переговоров<ref>{{статья |автор=Riahi K., van Vuuren D. P., Kriegler E. и др. |заглавие=The Shared Socioeconomic Pathways and their energy, land use, and greenhouse gas emissions implications: An overview |издание=Global Environmental Change |год=2017 |том=42 |страницы=153–168 |doi=10.1016/j.gloenvcha.2016.05.009}}</ref>.
* '''Национальное стратегическое планирование.''' Правительства используют сценарный анализ для разработки долгосрочных стратегий. Сингапурское правительство регулярно применяет сценарное планирование (в частности, в рамках Центра стратегического будущего) для предвидения геополитических и технологических сдвигов. В Финляндии парламентский Комитет будущего выпускает сценарные доклады по таким темам, как будущее труда или энергетики. В России элементы сценарного подхода заложены в прогнозы социально-экономического развития, разрабатываемые Минэкономразвития, а также в работы Института народнохозяйственного прогнозирования РАН, где строятся сценарии на основе межотраслевых моделей.
* '''Научно-технические сценарии.''' Национальный научный фонд США (NSF) и Европейская комиссия финансируют проекты по сценарному прогнозированию прорывных технологий. Например, проект «Future of Science and Technology» в рамках Horizon Europe разрабатывает сценарии взаимодействия науки, инноваций и общества до 2040 года, оценивая последствия разных уровней государственного финансирования и международной кооперации.

== Качественный сценарный анализ развития искусственного интеллекта ==
Развитие [[Искусственный интеллект|искусственного интеллекта]] — область с высокой неопределённостью, где качественные сценарии позволяют структурировать обсуждение возможностей и угроз.

Методология интуитивной логики была применена, в частности, в отчёте «The Malicious Use of Artificial Intelligence: Forecasting, Prevention, and Mitigation» (Brundage et al., 2018). Авторы выделили ключевые неопределённости — доступность технологий, скорость прогресса, уровень координации акторов — и построили качественные сценарии злонамеренного использования: от цифрового мошенничества до атак на критическую инфраструктуру, одновременно предлагая меры предотвращения<ref>{{статья |автор=Brundage M., Avin S., Clark J. и др. |заглавие=The Malicious Use of Artificial Intelligence: Forecasting, Prevention, and Mitigation |издание=arXiv |год=2018 |eprint=1802.07228}}</ref>.

Другой пример — сценарии перехода к [[Общий искусственный интеллект|общему искусственному интеллекту]] (AGI) и [[Искусственный суперинтеллект|суперинтеллекту]] (ASI), обсуждаемые в докладе DeepMind [[П:DeepMind 2026 From AGI to ASI|From AGI to ASI]] (2026). Исследователи качественно проработали четыре технологических пути (масштабирование, смена парадигмы, рекурсивное самоулучшение, многоагентные системы) и наложили на них «трения» — от экономической нерентабельности до барьера абстракции. Полученные сценарии (медленный, быстрый и гибридный взлёт) очерчивают спектр возможностей: от постепенной адаптации общества до «интеллектуального взрыва», требующего экстренных мер безопасности<ref>{{статья |автор=Tim Genewein et al. (DeepMind) |заглавие=From AGI to ASI |год=2026 |ссылка статьи=https://arxiv.org/html/2606.12683}}</ref>.

Классификация угроз и возможностей, предлагаемая этими сценариями:
* '''Возможности:''' автоматизация научных открытий, решение проблем климата и энергетики, персонализированная медицина, рост производительности, новые формы творчества.
* '''Угрозы:''' инструментальная конвергенция (захват ресурсов, самосохранение), гонка вооружений, дестабилизация рынка труда, концентрация власти, необратимые последствия плохо специфицированных целей.

Сценарный анализ ИИ активно используется и в государственной политике. Например, исследовательская служба Конгресса США и Европейская комиссия выпускали обзоры сценариев регулирования ИИ, а Национальный совет по разведке США включает сценарии развития ИИ в свои четырёхлетние доклады «Global Trends».

== Графовый метод сценарного анализа с вероятностной оценкой ==
Отдельным направлением количественного сценарного анализа является построение '''графа (дерева) событий''' с оцениванием вероятностей переходов. Метод восходит к работам по анализу решений (decision analysis) и системной инженерии, а современные реализации опираются на [[Байесовская сеть|байесовские сети]] и [[кросс-импакт анализ]].

=== Построение дерева сценариев ===
Структура выглядит как ориентированный граф, где:
* узлы представляют собой ключевые события или переменные состояния;
* рёбра — причинно-следственные или временные переходы;
* каждому ребру приписывается условная вероятность перехода (оценённая экспертно или из данных).
Корневой узел соответствует текущему состоянию. Листьями служат конечные сценарии. Совместная вероятность сценария равна произведению условных вероятностей вдоль пути.

Такой подход позволяет:
* количественно сравнивать сценарии по вероятности;
* вычислять ожидаемые значения целевых метрик, взвешивая сценарии;
* проводить анализ «обратных выводов»: при фиксации конечного нежелательного сценария оценивать наиболее вероятные ведущие к нему цепочки событий и вырабатывать меры по их блокированию.

=== Кросс-импакт анализ и байесовские сети ===
В классическом кросс-импакт анализе (Gordon, Hayward, 1968) эксперты заполняют матрицу условных вероятностей <tex>P(E_i \mid E_j)</tex>, отражающих влияние наступления события <tex>E_j</tex> на вероятность события <tex>E_i</tex>. Калибровка матрицы позволяет вычислить согласованные безусловные вероятности всех событий и их комбинаций. Современное расширение — использование байесовских сетей, где структура графа и таблицы условных вероятностей либо задаются экспертами, либо обучаются на исторических данных. Такие сети применяются, например, для сценарного анализа энергетической безопасности, где узлами выступают «политическая стабильность», «цена нефти», «аварии на инфраструктуре», «объём возобновляемой генерации», а на выходе оценивается вероятность дефицита энергии<ref>{{статья |автор=Cinar D., Kayakutlu G. |заглавие=Scenario analysis using Bayesian networks: A case study in energy |издание=Energy |год=2010 |том=35 |номер=3 |страницы=1321–1330 |doi=10.1016/j.energy.2009.11.017}}</ref>.

=== Программные реализации ===
Пакеты вроде `bnlearn` (R), `pgmpy` (Python) или коммерческие системы (Hugin, Netica) позволяют строить графы сценариев, обучать их параметры и выполнять вероятностный вывод, превращая качественные нарративы в вычислимые модели.

== Применение в машинном обучении ==

=== Оценка устойчивости и стресс-тестирование моделей ===
Перед развёртыванием модель должна демонстрировать стабильные характеристики не только на случайном тестовом подмножестве, но и при [[Сдвиг распределения|сдвигах распределения]] (dataset shift). Создаются сценарии, отражающие возможные изменения: появление новых категорий товаров в рекомендательной системе, изменение демографического состава пользователей, сезонные эффекты. На этих сценариях измеряются точность, [[F-мера]] или [[Калибровка вероятностей|калибровка]]. Инструменты вроде CheckList для [[Обработка естественного языка|NLP]] генерируют сценарные тесты, проверяющие поведение модели на контрафактических примерах (инверсия пола, замена именованных сущностей), что позволяет выявить скрытые смещения<ref>{{статья |автор=Ribeiro M. T., Wu T., Guestrin C., Singh S. |заглавие=Beyond Accuracy: Behavioral Testing of NLP Models with CheckList |издание=Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics |год=2020 |страницы=4902–4912 |doi=10.18653/v1/2020.acl-main.442}}</ref>. В [[Компьютерное зрение|компьютерном зрении]] сценарный анализ охватывает изменение освещения, погоды, ракурсов.

=== Контрфактические объяснения ===
Запрос «как изменилось бы предсказание, если бы признак <tex>x</tex> принял другое значение?» является локальным сценарным анализом. Методы генерации [[Контрфактические объяснения|контрфактических объяснений]] (counterfactual explanations) строят минимально изменённые входные векторы, при которых решение модели становится иным, что даёт пользователю понятную интерпретацию<ref>{{статья |автор=Wachter S., Mittelstadt B., Russell C. |заглавие=Counterfactual Explanations without Opening the Black Box: Automated Decisions and the GDPR |издание=Harvard Journal of Law & Technology |год=2018 |том=31 |номер=2 |страницы=841–887 |doi=10.2139/ssrn.3063289}}</ref>. Для этого решается оптимизационная задача, где ограничениями выступают правдоподобность полученного сценария.

=== Distributionally Robust Optimization (DRO) ===
Классическая [[Эмпирическая минимизация риска|минимизация эмпирического риска]] предполагает, что обучающая и тестовая выборки взяты из одного распределения. [[Distributionally Robust Optimization]] расширяет постановку: модель оптимизируется для наихудшего ожидаемого риска по заранее заданному семейству распределений — «облаку неопределённости». Это облако можно трактовать как множество сценариев сдвига распределения (ковариационные сдвиги, смесь групп, <tex>f</tex>-divergence balls). Такой подход даёт гарантии производительности при любом сценарии из семейства<ref>{{статья |автор=Sagawa S., Koh P. W., Hashimoto T. B., Liang P. |заглавие=Distributionally Robust Neural Networks for Group Shifts |издание=Proceedings of the International Conference on Learning Representations (ICLR) |год=2020 |ссылка=https://openreview.net/forum?id=ryxGuJrFvS}}</ref>. Тем самым сценарный анализ встроен непосредственно в обучение, обеспечивая устойчивость к определённым заранее сдвигам данных.

=== Прогнозирование и планирование ===
Для [[Временные ряды|временных рядов]] строятся сценарные прогнозы (scenario forecasting), где модель генерирует несколько траекторий при разных макроэкономических или метеорологических предположениях. В [[Обучение с подкреплением|обучении с подкреплением]] агент может оцениваться по набору сценариев, отличающихся начальными условиями или динамикой среды; это помогает избежать переобучения к одной узкой симуляции.

== Инструменты ==
* '''[[What-If Tool]]''' (Google) — интерактивный визуальный инструмент для анализа обученных моделей [[TensorFlow]]. Позволяет задавать сценарии изменения признаков и сразу видеть изменение предсказаний и метрик справедливости.
* '''Fairlearn''' — библиотека для оценки и улучшения справедливости моделей, включающая подбор порогов для разных групп, что можно рассматривать как анализ сценариев групповых сдвигов.
* '''Alibi Detect''' — библиотека для обнаружения дрифта данных, позволяющая задавать эталонные и тестируемые сценарии распределений.
* '''CheckList''' — фреймворк для поведенческого тестирования NLP-моделей на основе шаблонных сценариев.
* '''DRO-библиотеки''' — реализации DRO в [[PyTorch]] и [[TensorFlow]] (например, `robustness`, `dominate`), позволяющие обучать модели с устойчивостью к заданным семействам распределений.

== Актуальные научные направления ==
* '''Автоматическая генерация стресс-сценариев''': использование [[Генеративный искусственный интеллект|генеративных моделей]] для создания сложных, но реалистичных тестовых примеров, которые трудно придумать вручную.
* '''Мультимодальные сценарии''': одновременное изменение текста, изображения и табличных данных для оценки комплексных систем вроде автономного вождения или медицинской диагностики.
* '''Связь с [[Причинный вывод|причинным выводом]]''': построение сценариев как интервенций в [[Причинно-следственная модель|структурно-причинной модели]], что позволяет отвечать на вопросы «что, если» с причинно-следственными гарантиями.
* '''Человеко-машинное взаимодействие''': разработка интерфейсов, которые позволяют экспертам предметной области конструировать сценарии на естественном языке и тут же видеть их влияние на выход модели.

== См. также ==
* [[Сценарный анализ/Альтернативный вариант]]
* [[Анализ «что-если»]]
* [[Анализ чувствительности]]
* [[Стресс-тестирование]]
* [[Distributionally Robust Optimization]]
* [[Объяснимый искусственный интеллект]]
* [[Контрфактические объяснения]]
* [[Сдвиг распределения]]
* [[Имитационное моделирование]]
* [[Метод Монте-Карло]]

== Примечания ==
{{примечания}}

== Литература ==
* {{книга |автор=Schwartz P. |заглавие=The Art of the Long View: Planning for the Future in an Uncertain World |место=New York |издательство=Currency Doubleday |год=1991 |isbn=978-0-385-26732-8}}
* {{статья |автор=Wack P. |заглавие=Scenarios: Uncharted Waters Ahead |издание=Harvard Business Review |год=1985 |том=63 |номер=5 |страницы=73–89}}
* {{статья |автор=Gordon T. J., Hayward H. |заглавие=Initial experiments with the cross impact matrix method of forecasting |издание=Futures |год=1968 |том=1 |номер=2 |страницы=100–116}}
* {{статья |автор=Cinar D., Kayakutlu G. |заглавие=Scenario analysis using Bayesian networks: A case study in energy |издание=Energy |год=2010 |том=35 |номер=3 |страницы=1321–1330 |doi=10.1016/j.energy.2009.11.017}}
* {{статья |автор=Brundage M., Avin S., Clark J. и др. |заглавие=The Malicious Use of Artificial Intelligence: Forecasting, Prevention, and Mitigation |издание=arXiv |год=2018 |eprint=1802.07228}}
* {{П:DeepMind 2026 From AGI to ASI}}
* {{статья |автор=Riahi K., van Vuuren D. P., Kriegler E. и др. |заглавие=The Shared Socioeconomic Pathways and their energy, land use, and greenhouse gas emissions implications: An overview |издание=Global Environmental Change |год=2017 |том=42 |страницы=153–168 |doi=10.1016/j.gloenvcha.2016.05.009}}
* {{статья |автор=Ribeiro M. T., Wu T., Guestrin C., Singh S. |заглавие=Beyond Accuracy: Behavioral Testing of NLP Models with CheckList |издание=Proceedings of ACL |год=2020 |doi=10.18653/v1/2020.acl-main.442}}
* {{статья |автор=Wachter S., Mittelstadt B., Russell C. |заглавие=Counterfactual Explanations without Opening the Black Box |издание=Harvard Journal of Law & Technology |год=2018 |том=31 |номер=2}}
* {{статья |автор=Sagawa S., Koh P. W., Hashimoto T. B., Liang P. |заглавие=Distributionally Robust Neural Networks for Group Shifts |издание=Proceedings of ICLR |год=2020}}
* {{книга |автор=Molak T. |заглавие=The Machine Learning Solutions Architect Handbook |часть=Chapter 12: Scenario Testing and Model Robustness |место=Birmingham |издательство=Packt Publishing |год=2022}}

Двойной спуск

2026-06-18T09:04:01Z

Описание изменений: Добавление примечаний, ссылки, литература, оформление

{{well|Статья написана с использованием LLM '''Gemini 3.5 Pro''' и проверена участником [[Участник:Vsevolod Peretiatko|Vsevolod Peretiatko]] 13:04, 18 июня 2026 (MSD)}}

'''Двойной спуск''' (англ. ''Double Descent'') — феномен в [[Машинное обучение|машинном обучении]], заключающийся в немонотонном изменении [[Ошибка обобщения|ошибки обобщения]] (качества работы на [[Тестовая выборка|тестовой выборке]]) при увеличении емкости модели, объема доступных данных или продолжительности обучения.

В рамках классической теории вычислений зависимость ошибки от сложности модели описывается <tex>U</tex>-образной кривой, отражающей баланс [[Вариация и смещение|смещения и дисперсии]]. Однако эффект двойного спуска показывает, что за точкой идеального запоминания данных (порогом интерполяции) существует вторая область — перепараметризованный режим, в котором дальнейшее усложнение архитектуры приводит к повторному и устойчивому снижению тестовой ошибки.

Феномен двойного спуска математически объясняет, почему современные сверхбольшие [[Нейронная сеть|нейронные сети]] (включая глубокие сверточные сети и [[Трансформер|трансформеры]]) обладают высокой [[Обобщающая способность|обобщающей способностью]] и не подвержены катастрофическому [[Переобучение|переобучению]], даже если количество их параметров многократно превосходит объем обучающей выборки, а тренировочный [[Функция потерь|риск]] доводится до нуля.

[[Изображение:Double_descent_generalized_curve.svg|thumb|500px|right|Обобщенная кривая двойного спуска, разделенная порогом интерполяции (критическая точка емкости модели, где p ≈ n) на недопараметризованную и перепараметризованную области.]]

== Исторический контекст и феноменология ==

Классическая статистическая парадигма обучения, уходящая корнями в [[Теория Вапника-Червоненкиса|теорию Вапника — Червоненкиса]] и принципы [[Метод регуляризации Тихонова|регуляризации Тихонова]], постулирует необходимость жесткого контроля сложности модели. Согласно этой концепции, избыточная емкость (например, высокая степень аппроксимирующего полинома) неизбежно ведет к подгонке под случайный шум в данных — классическому переобучению (англ. ''overfitting''). Оптимальная обобщающая способность всегда лежит строго до точки емкости, необходимой для полной интерполяции обучающего множества.

Тем не менее, в практике глубокого обучения длительное время зрел эмпирический парадокс. Модели с миллионами настраиваемых весов успешно обучались до нулевой ошибки на [[Обучающая выборка|тренировочных данных]], но при этом демонстрировали превосходное качество аппроксимации на независимых тестах. Первые теоретические предвестники объяснения этого явления возникли еще в 1990-х годах в работах по статистической физике линейных перцептронов (в частности, в исследованиях [[Манфред Оппер|М. Оппера]]<ref name="opper_1995">{{статья|автор=Opper M.|заглавие=Statistical mechanics of learning: Generalization in the oversized perceptron|издание=Physical Review E|год=1995|том=51|номер=4|страницы=3613–3618}}</ref>), где методами реплик исследовались пределы обучения при <tex>p > n</tex>. В начале 2000-х годов [[Лео Брейман|Л. Брейман]]<ref name="breiman_2001">{{статья|автор=Breiman L.|заглавие=Random Forests|издание=Machine Learning|год=2001|том=45|номер=1|страницы=5–32}}</ref>, анализируя [[Случайный лес|случайные леса]] и алгоритмы [[Бустинг|адаптивного бустинга]], зафиксировал, что добавление новых базовых классификаторов после достижения идеального разделения выборки не ухудшает, а зачастую улучшает тестовую метрику, что прямо противоречило <tex>U</tex>-дилемме.

Терминологическое объединение этих наблюдений и их строгое феноменологическое описание было представлено в 2019 году в работе М. Белкина, Д. Сю, С. Ма и С. Мандала<ref name="belkin_2019">{{статья|автор=Belkin M., Hsu D., Ma S., Mandal S.|заглавие=Reconciling modern machine-learning practice and the classical bias–variance trade-off|издание=Proceedings of the National Academy of Sciences|год=2019|том=116|номер=32|страницы=15849–15854}}</ref>. Авторы продемонстрировали, что традиционная <tex>U</tex>-образная кривая является лишь левой частью более общей, «двугорбой» картины. Они ввели понятие '''порога интерполяции''' (англ. ''interpolation threshold'') — критической точки, разделяющей недопараметризованный (классический) и перепараметризованный (современный) режимы. В том же году П. Наккиран обобщил данный эффект для широкого класса глубоких нейросетевых архитектур, введя в оборот термин '''глубокий двойной спуск''' (англ. ''Deep Double Descent'')<ref name="nakkiran_2020">{{статья|автор=Nakkiran P., Kaplun G., Bansal Y., Yang T., Barak B., Sutskever I.|заглавие=Deep double descent: Where bigger models and more data hurt|издание=International Conference on Learning Representations (ICLR)|год=2020}}</ref> и показав универсальность явления по осям сложности модели, времени обучения и объема данных.

== Теоретическое обоснование и механизмы эффекта ==

Для формализации рассмотрим задачу [[Регрессионный анализ|регрессии]]. Пусть задано распределение <tex>\mathcal{P}(X, Y)</tex> на пространстве <tex>\mathbb{R}^d \times \mathbb{R}</tex>. Обучающая выборка состоит из <tex>n</tex> пар наблюдений: <tex>S = \{(\mathbf{x}_i, y_i)\}_{i=1}^n</tex>. Рассматривается параметрическое семейство функций <tex>\mathcal{H} = \{f(\mathbf{x}, \mathbf{w}) \mid \mathbf{w} \in \mathbb{R}^p\}</tex>, где <tex>p</tex> обозначает число настраиваемых параметров (размерность пространства весов).

Истинный риск (ошибка обобщения) определяется как:
<tex>\mathcal{R}(f) = \mathbb{E}_{(\mathbf{x}, y) \sim \mathcal{P}} (f(\mathbf{x}, \mathbf{w}) - y)^2</tex>

Эмпирический риск на выборке <tex>S</tex> задается функционалом:
<tex>\hat{\mathcal{R}}(f) = \frac{1}{n} \sum_{i=1}^n (f(\mathbf{x}_i, \mathbf{w}) - y_i)^2</tex>

=== Поведение смещения и дисперсии при перепараметризации ===

Математическая природа двойного спуска раскрывается через классическое разложение ошибки обобщения на квадрат [[Смещение|смещения]] (англ. ''bias'') и [[Дисперсия|дисперсию]] (англ. ''variance''):
<tex>\mathcal{R}(f) = \text{Bias}^2 + \text{Variance} + \sigma_{\text{noise}}^2</tex>

[[Изображение:Bias_variance_double_descent.svg|thumb|675px|center|Поведение смещения и дисперсии в контексте двойного спуска. Острый пик на пороге интерполяции обусловлен неограниченным ростом дисперсии из-за вырождения ковариационной матрицы.]]

При изменении отношения числа параметров <tex>p</tex> к объему выборки <tex>n</tex> эти компоненты ведут себя качественно различным образом:

* '''В недопараметризованной области''' (<tex>p < n</tex>): с ростом <tex>p</tex> смещение монотонно убывает (модель точнее улавливает истинную зависимость), но дисперсия растет, так как увеличивается чувствительность к случайному шуму выборки.
* '''В точке порога интерполяции''' (<tex>p \approx n</tex>): система уравнений <tex>f(\mathbf{x}_i, \mathbf{w}) = y_i</tex> становится разрешимой, но ковариационная матрица признаков <tex>X^TX</tex> оказывается близка к вырождению. Ее минимальное ненулевое сингулярное значение стремится к нулю, что вызывает катастрофический взрыв [[Число обусловленности|числа обусловленности]] системы (<tex>\kappa \to \infty</tex>). Дисперсия устремляется в бесконечность, формируя локальный пик тестовой ошибки.
* '''В перепараметризованной области''' (<tex>p > n</tex>): число доступных решений, доводящих эмпирический риск до нуля (<tex>\hat{\mathcal{R}}(f) = 0</tex>), становится бесконечным. Смещение стабилизируется на нулевом уровне, а дисперсия начинает монотонно убывать с ростом <tex>p</tex>.

=== Неявное смещение и псевдообратная матрица Мура — Пенроуза ===

Ключевым фактором снижения дисперсии в перепараметризованной зоне выступает '''неявное смещение''' (англ. ''implicit bias'') используемых градиентных методов. При обучении с помощью [[Градиентный спуск|градиентного спуска]] или [[Стохастический градиентный спуск|SGD]] из нулевой инициализации алгоритм сходится не к случайному интерполирующему решению, а к решению с минимальной евклидовой нормой весов (<tex>\ell_2</tex>-нормой):
<tex>\mathbf{w}^* = \arg\min_{\mathbf{w}} \|\mathbf{w}\|_2^2</tex> при условии <tex>f(\mathbf{x}_i, \mathbf{w}) = y_i, \quad \forall i=1, \dots, n</tex>

Для линейной регрессии <tex>Y = X\mathbf{w}</tex> в явном виде это решение задается через [[Псевдообратная матрица|псевдообратную матрицу Мура — Пенроуза]]:
<tex>\mathbf{w}^* = X^\dagger \mathbf{y} = X^T(XX^T)^{-1}\mathbf{y}</tex>

При увеличении размерности <tex>p</tex> за пределы <tex>n</tex> геометрия пространства параметров расширяется. Появляется больше степеней свободы для построения гладкой интерполирующей поверхности. Минимально-нормовое решение эффективно распределяет «энергию» предсказания по множеству слабых ортогональных направлений, сглаживая колебания функции между узлами интерполяции.

=== Теория «доброкачественного переобучения» ===

Строгое математическое обоснование возможности успешного обобщения в условиях точной интерполяции шума было сформулировано П. Бартлеттом, П. Лонгом, Г. Лугоши и А. Циглером в 2020 году под названием '''доброкачественное переобучение''' (англ. ''benign overfitting'')<ref name="bartlett_2020">{{статья|автор=Bartlett P. L., Long P. M., Lugosi G., Tsigler A.|заглавие=Benign overfitting in linear regression|издание=Proceedings of the National Academy of Sciences|год=2020|том=117|номер=48|страницы=30063–30070}}</ref>.

Они установили, что переобучение является доброкачественным, если спектр [[Собственные значения|собственных значений]] <tex>\lambda_1 \ge \lambda_2 \ge \dots \ge \lambda_p</tex> ковариационной матрицы признаков обладает «тяжелым хвостом». Для этого должны выполняться два условия на эффективную размерность (англ. ''effective dimension''):
# Избыточные параметры должны быть распределены по большому количеству направлений с малыми, но ненулевыми собственными значениями.
# Сумма этих малых собственных значений (след хвоста матрицы) должна быть велика по сравнению с <tex>\sqrt{n}</tex>.

В этом случае геометрия пространства позволяет вектору параметров <tex>\mathbf{w}^*</tex> «сгрузить» случайный шум обучающей выборки в бесконечномерный хвост ковариационной матрицы, практически не искажая предсказания на главных, наиболее информативных компонентах данных. Шум изолируется в ортогональных подпространствах и эффективно усредняется, обеспечивая монотонное падение ошибки обобщения при <tex>p \to \infty</tex>.

== Разновидности двойного спуска ==

Эмпирические и теоретические исследования показали, что эффект двойного спуска является инвариантным свойством нелинейных вычислительных систем и может индуцироваться тремя независимыми факторами (осями) в процессе оптимизации.

=== Двойной спуск по сложности модели (Model-wise Double Descent) ===
Это классическая форма проявления феномена. При фиксированном объеме обучающей выборки <tex>n</tex> и фиксированном (достаточно большом) числе итераций обучения варьируется емкость самого пространства гипотез <tex>p</tex> (например, ширина скрытых слоев нейросети, количество каналов в сверточных слоях или глубина ансамбля). Локальный максимум ошибки обобщения строго локализуется в окрестности точки <tex>p \approx n</tex>. По мере дальнейшего роста <tex>p \to \infty</tex> тестовая ошибка монотонно убывает, стремясь к асимптотическому пределу, который зачастую оказывается ниже глобального минимума из недопараметризованной зоны.

=== Двойной спуск по времени обучения (Epoch-wise Double Descent) ===
Данная разновидность проявляется в динамике обучения одной фиксированной перепараметризованной модели (<tex>p > n</tex>). В процессе оптимизации методом градиентного спуска траектория весов последовательно проходит через различные режимы сложности:
* На ранних эпохах модель ведет себя как жестко регуляризованная (низкая эффективная емкость), улавливая лишь главные компоненты данных — тестовая ошибка падает.
* На промежуточных эпохах модель начинает подстраиваться под высокочастотный шум и приближается к порогу интерполяции выборки. Здесь возникает локальный пик переобучения.
* Если продолжить оптимизацию («сверхнеобходимое» обучение, англ. ''overtraining''), неявное смещение алгоритма минимизирует норму весов, выстраивая максимально гладкую разделяющую поверхность. Ошибка на тесте преодолевает пик и снова снижается.

Время обучения в данном контексте математически выступает как непрерывный параметр, обратный коэффициенту регуляризации Тихонова (<tex>t \propto 1/\lambda</tex>).

=== Двойной спуск по объему данных (Sample-wise Double Descent) ===
Наиболее контринтуитивная форма эффекта, подрывающая классическое представление о том, что расширение выборки всегда полезно. Если зафиксировать сложность модели <tex>p</tex> и постепенно увеличивать размер обучающей выборки <tex>n</tex>, то в момент, когда <tex>n</tex> приближается к <tex>p</tex> (справа налево по шкале относительной сложности), модель внезапно теряет обобщающую способность. Добавление новых валидных объектов смещает систему в область критического баланса <tex>p/n \approx 1</tex>, вызывая вырождение ковариационной матрицы и взрыв дисперсии. Таким образом, в условиях фиксированной емкости промежуточный дефицит данных может парадоксальным образом приводить к лучшему качеству на тесте, чем наличие умеренного их количества.

== Методы сглаживания пика интерполяции ==

Острый пик тестовой ошибки на пороге интерполяции представляет собой вычислительную нестабильность. В практических задачах его наличие нежелательно, поскольку случайные флуктуации размерности данных или параметров модели могут привести к критическому падению качества. Для ликвидации пика и превращения «двугорбой» кривой в монотонно убывающую применяются методы явной и неявной регуляризации.

=== Явная регуляризация (Ridge Regression и Weight Decay) ===
Математически наиболее строгим методом устранения сингулярности в точке <tex>p = n</tex> является ограничение евклидовой нормы весов. В задаче линейной регрессии это приводит к [[Гребневая регрессия|гребневой регрессии]] (англ. ''Ridge Regression''):
<tex>\mathbf{w}_\lambda = \arg\min_{\mathbf{w}} \left( \frac{1}{n} \|X\mathbf{w} - \mathbf{y}\|_2^2 + \lambda \|\mathbf{w}\|_2^2 \right)</tex>

Аналитическое решение имеет вид:
<tex>\mathbf{w}_\lambda = (X^TX + \lambda I)^{-1}X^T\mathbf{y}</tex>

Добавление диагональной матрицы <tex>\lambda I</tex> (где <tex>\lambda > 0</tex>) сдвигает спектр оператора <tex>X^TX</tex> вверх. Минимальное собственное значение теперь строго ограничено снизу величиной <tex>\lambda</tex>, что препятствует стремлению числа обусловленности к бесконечности. Дисперсия оценки параметров стабилизируется, и пик интерполяции полностью нивелируется. В глубоком обучении этот механизм реализуется через [[Затухание весов|затухание весов]] (англ. ''Weight Decay'').

=== Ранняя остановка (Early Stopping) ===
Ранняя остановка прерывает траекторию градиентного спуска до того, как она успеет достигнуть критической точки интерполяции шума. Поскольку алгоритм сначала обучается вдоль направлений наибольшей вариации данных (соответствующих максимальным собственным значениям ковариационной матрицы), ранняя остановка эффективно «замораживает» избыточные степени свободы, оставляя их близкими к нулю. Это эквивалентно неявной фильтрации малых сингулярных значений.

=== Стохастическая регуляризация и ансамблирование ===
Методы, основанные на внесении случайности в процесс обучения (например, [[Dropout]] или инжектирование шума во входные признаки), эффективно сглаживают пик интерполяции за счет разрушения точных шумовых корреляций. Модель теряет возможность построить сингулярную разделяющую поверхность, так как геометрия признакового пространства непрерывно деформируется от шага к шагу.

[[Ансамблирование|Ансамблирование]] (в частности, [[Бэггинг|бэггинг]]) действует аналогично: усреднение предсказаний множества независимых интерполирующих моделей, обученных на подвыборках, приводит к математическому усреднению их случайных высокочастотных колебаний, что резко снижает общую дисперсию ансамбля в критической зоне.

== Практические следствия для проектирования архитектур ==

Открытие двойного спуска перевернуло базовые методологические принципы инженерии признаков и проектирования нейросетевых архитектур.

=== Отказ от Бритвы Оккама в пользу сверхпараметризации ===
Традиционный подход предписывал экономию параметров (принцип [[Бритва Оккама|Бритвы Оккама]]): следовало выбирать наименьшую модель, способную решить задачу, чтобы избежать переобучения. Современная парадигма глубокого обучения, обоснованная двойным спуском, утверждает обратное: «Сверхпараметризуй и регуляризуй» (англ. ''Overparameterize and Regularize''). Инженеры целенаправленно выбирают архитектуры, чья емкость на несколько порядков превосходит объем обучающей выборки, так как глубокий перепараметризованный режим обеспечивает более устойчивое и высокое качество обобщения.

=== Концепция «плоских минимумов» (Flat Minima) ===
В перепараметризованном режиме ландшафт [[Функция потерь|функции потерь]] меняет свою геометрию. Вместо изолированных локальных экстремумов возникает непрерывное многообразие (плато) глобальных минимумов, обеспечивающих нулевой эмпирический риск (<tex>\hat{\mathcal{R}}(f) = 0</tex>).

Работа стохастических методов оптимизации в таких пространствах приводит к смещению в сторону так называемых «плоских минимумов» (впервые описанных З. Хохрайтером и Ю. Шмидхубером<ref name="hochreiter_1997">{{статья|автор=Hochreiter S., Schmidhuber J.|заглавие=Flat Minima|издание=Neural Computation|год=1997|том=9|номер=1|страницы=1–42}}</ref>). В плоской долине малые возмущения весов, вызванные переходом от обучающей выборки к тестовой, не приводят к резкому росту ошибки предсказания, в отличие от «острых минимумов» (англ. ''sharp minima''), характерных для недопараметризованной зоны вблизи порога интерполяции.

=== Изменение характера отбора признаков ===
В классических моделях включение избыточных или зашумленных признаков приводило к явлению мультиколлинеарности и требовало обязательного применения процедур [[Отбор признаков|отбора признаков]] (англ. ''feature selection''). В сверхперепараметризованных архитектурах неявное смещение оптимизатора самостоятельно распределяет веса таким образом, что зашумленные компоненты проецируются в «тяжелый хвост» ковариационной матрицы и взаимно уничтожаются, избавляя от необходимости жесткой предварительной фильтрации сигналов.

== Феномен в эпоху больших языковых моделей (LLM) и Foundation Models ==

Масштабирование нейросетей до сотен миллиардов параметров в рамках построения [[Большая языковая модель|больших языковых моделей (LLM)]] выявило новые аспекты проявления двойного спуска.

=== Законы масштабирования (Scaling Laws) ===
При предобучении (англ. ''pre-training'') современных LLM (таких как [[GPT|GPT-4]] или [[Llama]]) на гигантских корпусах текстов классический пик двойного спуска по сложности модели практически не наблюдается. Это связано с тем, что параметры вычислительного процесса изначально сбалансированы в соответствии с '''[[Законы масштабирования|законами масштабирования]]''': эмпирическими '''законами Каплана''' и оптимальными по вычислениям '''законами Шиншиллы'''<ref name="chinchilla_2022">{{статья|автор=Hoffmann J. et al.|заглавие=Training Compute-Optimal Large Language Models|издание=Neural Information Processing Systems (NeurIPS)|год=2022}}</ref> (англ. ''Reconciling Kaplan and Chinchilla Scaling Laws''). Модели разворачиваются глубоко в перепараметризованной области, где [[кросс-энтропия|кросс-энтропия]] на тесте монотонно убывает как степенная функция от объема вычислений, размера датасета и числа параметров.

=== Феномен гроккинга (Grokking) ===

[[Изображение:Grokking_phenomenon_curves.svg|thumb|400px|right|Феномен гроккинга при обучении на структурированных данных: долгое плато переобучения сменяется внезапным фазовым переходом к идеальной обобщающей способности на тесте.]]

При обучении [[Трансформер|трансформеров]] на небольших алгоритмических или сильно структурированных датасетах обнаруживается экстремальная форма двойного спуска по времени обучения — '''[[Гроккинг|гроккинг]]''' (англ. ''grokking''), открытый в 2022 году<ref name="grokking_2022">{{статья|автор=Power A., Burda Y., Edwards H., Babuschkin I., Misra V.|заглавие=Grokking: Generalization beyond overfitting on small algorithmic datasets|издание=arXiv preprint arXiv:2201.02177|год=2022}}</ref>.

При гроккинге процесс обучения разделяется на два дискретных этапа:
# Модель быстро достигает 100% точности на обучающей выборке (полная интерполяция), однако точность на тесте долгое время остается на уровне случайного угадывания. В этой фазе модель просто «зазубривает» данные, находя сложное, необобщаемое решение с большой нормой весов.
# При продолжении оптимизации в течение десятков тысяч дополнительных итераций (далеко за точку нулевого трейн-лосса) происходит внезапный фазовый переход: тестовая точность скачкообразно вырастает до 100%. Градиентный спуск за счет неявного смещения успевает перестроить внутренние репрезентации модели, очищая их от шума и формируя математически идеальную, обобщаемую структуру (например, тригонометрические симметрии при обучении модулярной арифметике).

=== Риски ранней остановки при тонкой настройке (Fine-tuning) ===
Эффект двойного спуска по времени обучения накладывает жесткие ограничения на процессы [[Тонкая настройка|тонкой настройки]] (англ. ''fine-tuning'') Foundation Models под узкие прикладные домены. Поскольку объем локальных обучающих выборок обычно мал (тысячи объектов), гигантская модель мгновенно сталкивается с порогом интерполяции.

На промежуточных эпохах адаптации валидационные метрики могут демонстрировать резкую деградацию, имитируя классическое переобучение. В этой ситуации стандартная инженерная практика ранней остановки (Early Stopping) оказывается ошибочной: прерывание обучения на пике деградации фиксирует наихудшую модель. Инженеру необходимо продолжить вычисления, позволяя алгоритму преодолеть локальный барьер дисперсии и выйти на плато перепараметризованного обобщения.

== Границы применимости и критика эффекта ==

Несмотря на фундаментальное значение феномена двойного спуска, в научном сообществе существует консенсус относительно того, что данный эффект не является непреодолимым законом природы, а скорее представляет собой следствие субоптимальной настройки процесса оптимизации.

=== Влияние оптимальной явной регуляризации ===
Критическое замечание к исследованиям двойного спуска заключается в том, что пик тестовой ошибки искусственно возникает из-за требования достижения нулевого эмпирического риска (так называемой интерполяционной регрессии без гребня, англ. ''ridgeless regression'').

Как показали работы Т. Хасти и соавторов<ref name="hastie_2022">{{статья|автор=Hastie T., Montanari A., Rosset S., Tibshirani R. J.|заглавие=Surprises in high-dimensional ridgeless least squares interpolation|издание=The Annals of Statistics|год=2022|том=50|номер=3|страницы=1249–1286}}</ref>, если вместо этого применять [[Регуляризация|гребневую регрессию]] с оптимально подобранным коэффициентом <tex>\lambda^*</tex> (например, через строгую [[Кросс-валидация|кросс-валидацию]]), пик интерполяции полностью исчезает. Оптимально регуляризованная модель демонстрирует классическую монотонно убывающую кривую ошибки обобщения без локальных максимумов. Таким образом, двойной спуск ярко выражен только в условиях отсутствия или недостаточной силы явной регуляризации.

=== Зависимость от функции потерь и метода оптимизации ===
Степень выраженности пика сильно зависит от выбранной [[Функция потерь|функции потерь]]. Для [[Среднеквадратичная ошибка|среднеквадратичной ошибки (MSE)]] взрыв дисперсии в точке <tex>p = n</tex> носит катастрофический характер. Однако для задач классификации, использующих логистическую функцию потерь (кросс-энтропию), ситуация иная: неявное смещение алгоритма на перепараметризованных данных максимизирует [[Отступ|отступ]] (англ. ''margin''). В таких условиях пик интерполяции часто оказывается сглаженным, так как дисперсия контролируется самим процессом максимизации разделяющей полосы.

Кроме того, неявное смещение (то, к какому именно решению сходится модель в перепараметризованной зоне) критически зависит от используемого оптимизатора. Классический [[Градиентный спуск]] находит решение с минимальной <tex>\ell_2</tex>-нормой. Однако использование других алгоритмов, таких как [[Зеркальный спуск|зеркальный спуск]] (англ. ''Mirror Descent''), [[Проксимальные методы|проксимальные методы]] или стратегии [[Координатный спуск|координатного спуска]] (Гаусса — Саутвелла, циклические и случайные), может вести к решениям с минимальной <tex>\ell_1</tex>-нормой или иной геометрией. Смена оптимизатора радикально меняет спектральные свойства системы, а значит, и асимптотическое поведение ошибки на тесте.

== Связь с концепцией нейрокасательного ядра (NTK) ==

Строгое аналитическое доказательство эффекта двойного спуска для сложных нейросетевых архитектур долгое время оставалось открытой математической проблемой из-за их существенной нелинейности. Прорыв в этом направлении был обеспечен разработкой теории '''[[Нейрокасательное ядро|нейрокасательного ядра]]''' (англ. ''Neural Tangent Kernel, NTK''), предложенной А. Жако, Ф. Габриэлем и К. Хонглером в 2018 году<ref name="ntk_2018">{{статья|автор=Jacot A., Gabriel F., Hongler C.|заглавие=Neural tangent kernel: Convergence and generalization in neural networks|издание=Neural Information Processing Systems (NeurIPS)|год=2018|страницы=8571–8580}}</ref>.

=== Линеаризация динамики обучения ===
Теория NTK описывает поведение нейронной сети в пределе её бесконечной ширины. Оказывается, что когда ширина скрытых слоев стремится к бесконечности (<tex>h \to \infty</tex>), градиенты функции сети по её весам практически перестают изменяться в процессе оптимизации. Это означает, что нейронная сеть переходит в режим «ленивого обучения» (англ. ''lazy training''), а её динамика полностью линеаризуется.

В этом пределе обучение сверхпараметризованной нелинейной архитектуры математически становится эквивалентным классической [[Ядерные методы|ядерной гребневой регрессии]] с фиксированным ядром — нейрокасательным ядром.

=== Аналитическое выведение двойного спуска ===
Сведение глубокого обучения к ядерной регрессии позволило исследователям применить мощный математический аппарат [[Случайная матрица|теории случайных матриц]]. Используя свойства спектра матриц в пределе больших размерностей, математики смогли точно вычислить асимптотику риска обобщения для NTK.

Поскольку в режиме NTK нейросеть фактически решает переопределенную линейную систему уравнений в бесконечномерном [[Гильбертово пространство|гильбертовом пространстве]], аналитические решения идеально воспроизводят двугорбую кривую по мере роста сложности данных. Таким образом, концепция NTK послужила строгим математическим мостом, связавшим эмпирические наблюдения за глубокими сетями с надежными теоретическими выкладками для линейных моделей.

== См. также ==
* [[Вариация и смещение|Смещение-дисперсия]] — классическая дилемма в статистическом обучении.
* [[Переобучение]] — избыточная подгонка модели под обучающую выборку.
* [[Регуляризация]] — методы добавления априорных ограничений на веса модели.
* [[Градиентный спуск]] — базовый метод оптимизации, обладающий свойством неявной регуляризации.
* [[Псевдообратная матрица]] — математический инструмент для нахождения решений с минимальной нормой.
* [[Трансформер|Архитектура Трансформер]] — класс сверхперепараметризованных моделей, демонстрирующих монотонное улучшение качества при масштабировании.
* [[Ансамблирование]] — методы объединения нескольких алгоритмов в единую систему.

== Примечания ==
{{примечания}}

== Литература ==
* {{статья
|автор = Dar Y., Muthukumar V., Baraniuk R. G.
|заглавие = A farewell to the bias-variance tradeoff? An overview of the theory of overparameterized machine learning
|издание = Proceedings of the IEEE
|год = 2021
|том = 109
|номер = 5
|страницы = 679–694
}}
* {{статья
|автор = Advani M. S., Saxe A. M.
|заглавие = High-dimensional dynamics of generalization error in neural networks
|издание = Physical Review Research
|год = 2020
|том = 2
|номер = 4
|страницы = 043167
}}
* {{статья
|автор = Nakkiran P., Venkat P., Kakade S., Ma T.
|заглавие = Optimal regularization can mitigate double descent
|издание = International Conference on Learning Representations (ICLR)
|год = 2021
}}
* {{статья
|автор = Belkin M.
|заглавие = Fit without fear: remarkable mathematical phenomena of deep learning
|издание = Acta Numerica
|год = 2021
|том = 30
|страницы = 1–48
}}
* {{статья
|автор = Soudry D., Hoffer E., Nacson M. S., Gunasekar S., Srebro N.
|заглавие = The implicit bias of gradient descent on separable data
|издание = Journal of Machine Learning Research
|год = 2018
|том = 19
|номер = 1
|страницы = 2822–2878
}}
* {{статья
|автор = Mei S., Montanari A.
|заглавие = The generalization error of random features regression: Precise asymptotics and the double descent curve
|издание = Communications on Pure and Applied Mathematics
|год = 2022
|том = 75
|номер = 4
|страницы = 667–741
}}
* {{статья
|автор = Chizat L., Oyallon E., Bach F.
|заглавие = On lazy training in differentiable programming
|издание = Advances in Neural Information Processing Systems (NeurIPS)
|год = 2019
|том = 32
|страницы = 2933–2943
}}

[[Категория:Машинное обучение]]
[[Категория:Нейронные сети]]
[[Категория:Теория вычислительного обучения]]