Закон масштабирования нейронных сетей

Материал из MachineLearning.

(Перенаправлено с Neural scaling law)
Перейти к: навигация, поиск
Статья написана с использованием LLM DeepSeek-V3 и проверена участником Gadel Mahmutov 14:39, 22 июня 2026 (MSD)

Промпт приводится полностью в Обсуждение:Закон масштабирования нейронных сетей


Законы масштабирования нейронных сетей (англ. Neural scaling laws) — совокупность эмпирических закономерностей, описывающих, как качество глубоких нейронных сетей (обычно измеряемое функцией потерь на тестовой выборке) изменяется в зависимости от трёх ключевых ресурсов: количества параметров модели (N), размера обучающего набора данных (D) и объёма вычислений, затраченных на обучение (C). Эти зависимости в широком диапазоне масштабов хорошо приближаются степенными функциями, что позволяет предсказывать поведение больших моделей по результатам экспериментов с маленькими и осознанно распределять вычислительные бюджеты. Законы масштабирования сыграли центральную роль в переходе к эпохе больших языковых моделей, определив архитектурные и тренировочные стратегии индустрии.

Содержание

Определение и основные закономерности

Фундаментальным наблюдением является то, что тестовая потеря L нейронной сети при вариации одного из ресурсов (при условии, что остальные ресурсы не являются узким местом) ведёт себя как L(x) = a \cdot x^{-\alpha} + L_\infty, где x — это N, D или C; \alpha > 0 — показатель степени; a — масштабирующий коэффициент; L_\infty — асимптотически недостижимый нижний предел потерь (неустранимая энтропия данных, или «шум выборки»). В логарифмических координатах такая зависимость превращается в прямую с наклоном -\alpha и отсечкой \log a, что и дало название «степенные законы» (power laws). Для современных трансформерных языковых моделей типичные значения \alpha лежат в диапазоне 0,030,10 в зависимости от того, какой ресурс масштабируется.

На практике часто используют комбинированную форму, описывающую одновременную зависимость от размера модели и данных: L(N, D) = \frac{A}{N^\alpha} + \frac{B}{D^\beta} + E, где A, B, E — положительные константы, а \alpha, \beta — показатели для модели и данных соответственно. Эта параметризация лежит в основе знаменитого правила Чинчиллы.

Важнейшей связью между переменными является детерминированная оценка вычислительных затрат. Для плотной авторегрессионной трансформерной модели при обучении методом стохастического градиентного спуска количество операций с плавающей запятой, необходимое для одной эпохи обучения, приблизительно равно C \approx 6 N D (коэффициент 6 возникает из-за того, что прямой и обратный проходы требуют 2N и 4N операций на один обрабатываемый токен данных соответственно). Эта формула позволяет переходить от любой пары переменных к третьей и служит основой для сопоставления подходов к масштабированию.

Историческая справка

Первые систематические свидетельства предсказуемого степенного масштабирования нейронных сетей были опубликованы в 2017 году группой из Baidu и Стэнфорда (Hestness et al., 2017). На примере задач машинного перевода, языкового моделирования, распознавания речи и компьютерного зрения они показали, что уменьшение ошибки с ростом размера данных и модели подчиняется степенной зависимости, и коэффициенты можно извлечь из экспериментов с небольшими конфигурациями.

В 2020 году исследователи из OpenAI (Kaplan et al., 2020) провели крупномасштабное исследование на языковых моделях, впервые детально охарактеризовав законы масштабирования для трансформеров и введя сам термин «scaling laws for neural language models». Они показали, что при фиксированном вычислительном бюджете значительно выгоднее увеличивать размер модели, чем объём данных (степенные показатели для N и D оказались неравны), что на несколько лет определило гонку размеров моделей (GPT-3, Gopher и др.).

Переломный момент наступил в 2022 году, когда команда DeepMind в работе над моделью Chinchilla (Hoffmann et al., 2022) предложила новый метод поиска вычислительно-оптимального соотношения N и D. Они показали, что при правильном анализе выгоднее обучать модели меньшего размера на гораздо большем количестве данных, чем считалось ранее, и сформулировали «правило Чинчиллы». Эта работа изменила индустриальный тренд: рост количества параметров замедлился в пользу удлинения обучения (модели семейств LLaMA, Mistral и Gemma стали заметно меньше, но обучались на триллионах токенов).

Дальнейшее развитие связано с обнаружением нарушений простых степенных законов. В 2023 году Caballero et al. формализовали концепцию сломанных законов масштабирования (broken neural scaling laws, BNSL), описывающих немонотонные изломы на кривых масштабирования. В 2024 году появились работы, переносящие логику масштабирования на этап вывода (inference scaling), показывающие, как оптимально расходовать вычисления во время генерации ответа.

Ключевые переменные и их взаимосвязь

  • N — количество параметров модели (весов и смещений), определяющее её ёмкость и способность запоминать сложные паттерны. Большее N снижает смещение, но при недостатке данных приводит к переобучению.
  • D — размер обучающего набора данных, измеряемый обычно в количестве токенов для языковых моделей. Увеличение D уменьшает дисперсию оценки и улучшает обобщающую способность.
  • C — вычислительные затраты на обучение, выражаемые в FLOP (операциях с плавающей запятой). Для трансформеров при полном обучении без переиспользования данных справедливо соотношение C \approx 6 N D. Если данные переиспользуются (несколько эпох), зависимость усложняется.

На практике инженер, планируя обучение, может зафиксировать доступный бюджет C и с помощью законов масштабирования выбрать такое соотношение N и D, которое минимизирует ожидаемую тестовую потерю. Традиционный подход требует экспериментов с маленькими моделями для подгонки констант A, B, E, \alpha, \beta, после чего оптимум находится аналитически.

Практическое применение для планирования обучения

Законы масштабирования превратились в рутинный инструмент инженеров по машинному обучению, позволяющий:

  • Прогнозировать качество до запуска дорогих экспериментов. Имея несколько точек (потеря, N, D), полученных на небольших моделях или коротких тренировках, можно экстраполировать поведение на порядки бо́льшие масштабы и оценить, окупятся ли вложения в увеличение кластера.
  • Выбирать оптимальную архитектуру. На этапе дизайна модели закон масштабирования помогает сравнить, например, глубокие узкие сети с мелкими широкими: для одного и того же C предсказывается наименьшая потеря.
  • Назначать длительность обучения. Зная N и целевую потерю, можно оценить необходимое количество токенов D и, следовательно, число шагов оптимизатора, что позволяет точнее планировать бюджет облачных вычислений.
  • Распределять ресурсы между данными и моделью. Без законов масштабирования типичной практикой было обучение «сколько помещается в память ускорителей»; законы же дают количественные основания для обратного — осознанно ограничить размер модели и вложить сэкономленные FLOP в более длительное обучение.

Наиболее известный пример индустриального применения — разработка Chinchilla: предварительные эксперименты на моделях от 10M до 10B параметров позволили вывести правило оптимального распределения и создать 70B-модель, которая превзошла 175B-модель Gopher при одинаковых вычислительных затратах (и вчетверо меньшем размере).

Два основных подхода: масштабирование OpenAI и правило Чинчиллы

Подход OpenAI (Kaplan et al., 2020)

В ранней работе OpenAI анализировалось масштабирование отдельно по N и D в режимах, когда другой ресурс избыточен. Было установлено, что при неограниченных данных потери ведут себя как L(N) = \left( \frac{N_c}{N} \right)^{\alpha_N} + L_\infty, где \alpha_N \approx 0,076, а N_c — константа. Аналогично для данных: L(D) = \left( \frac{D_c}{D} \right)^{\alpha_D} + L_\infty с \alpha_D \approx 0,095. Из этих соотношений следовало, что с точки зрения фиксированного бюджета C \approx 6ND оптимальное количество параметров должно расти быстрее размера данных: N_{opt} \propto C^{0,73}, D_{opt} \propto C^{0,27}. Иными словами, рекомендовалось вкладывать большую часть вычислительных ресурсов в увеличение модели. Именно эта философия привела к созданию гигантских моделей вроде GPT-3 (175B параметров, обучена на ~300 млрд токенов).

Правило Чинчиллы (Hoffmann et al., 2022)

Исследователи DeepMind применили более прямой метод: они обучали множество моделей разного размера при различной длительности, а затем подгоняли единую параметрическую форму L(N, D) = \frac{A}{N^\alpha} + \frac{B}{D^\beta} + E. Оценки показателей составили \alpha \approx 0,34 и \beta \approx 0,28, а полученное оптимальное распределение ресурсов кардинально отличалось от предыдущего: N_{opt} \propto C^{0,5}, \quad D_{opt} \propto C^{0,5}.

Следует, однако, понимать, что эти показатели 0,5 являются эмпирическим приближением, а не прямым аналитическим следствием из \alpha = 0,34 и \beta = 0,28. Точное решение задачи минимизации потерь при ограничении C \approx 6ND приводит к зависимостям N_{opt} \propto C^{\beta/(\alpha+\beta)} и D_{opt} \propto C^{\alpha/(\alpha+\beta)}, что для указанных оценок дало бы N_{opt} \propto C^{0,45} и D_{opt} \propto C^{0,55}. Практическая разница в итоговой функции потерь между точным и округлённым распределением оказалась пренебрежимо малой, поэтому авторы сформулировали простое и запоминающееся «правило равного масштабирования»: при увеличении вычислительного бюджета размер модели и объём данных нужно увеличивать примерно в равной пропорции.

Влияние на индустрию

Правило Чинчиллы быстро стало индустриальным стандартом по нескольким причинам:

  • Экономия на инференсе. Меньшие модели требуют меньше памяти и вычислений на этапе вывода, что снижает стоимость эксплуатации.
  • Доступность данных. Интернет-данные оказались достаточно объёмны, чтобы обеспечить необходимое количество токенов (веб-масштабные корпуса содержат триллионы токенов).
  • Устойчивость к переобучению. Более длительное обучение на бо́льших данных улучшает обобщение без риска катастрофического переобучения, характерного для гигантских моделей на относительно скромных данных.

В результате модели нового поколения (LLaMA-7B на 1T токенов, Mistral-7B, Gemma) имеют размер в разы меньше, чем GPT-3, но демонстрируют сопоставимое или лучшее качество.

Ограничения и современные вызовы

Сломанные законы масштабирования (BNSL)

Простая степенная форма часто нарушается при переходе через определённые пороги масштаба или при смене режима обучения. Caballero et al. (2023) показали, что во многих задачах кривая потерь может содержать изломы — сломанные масштабные зависимости, которые лучше описываются функциями вида L(x) = a + b\, x^{-c} + \frac{d}{(\log x)^k} или более сложными композициями. Такие изломы связывают с фазовыми переходами в изучении языковых навыков, недостатком разнообразия данных на определённом уровне сложности или сменой узкого места с размера модели на размер данных. BNSL объясняют, почему простая экстраполяция иногда даёт оптимистичные или пессимистичные прогнозы, и требуют осторожности при переносе законов, полученных на маленьких моделях, на большие.

Насыщение данных

Законы масштабирования предполагают неограниченное количество новых, уникальных и качественных данных. В реальности объём доступных текстовых данных конечен (общий интернет, книги, научные статьи), и при приближении к этому пределу выгода от дальнейшего увеличения D резко падает. Эксперименты показывают, что повторение одних и тех же данных в течение нескольких эпох даёт быстро убывающую отдачу, а затем приводит к стагнации потерь и переобучению. Это породило активный поиск синтетических данных и методов активного обучения, чтобы «разомкнуть» насыщение.

Масштабирование на этапе вывода

Традиционно законы масштабирования относились к обучению. Однако в последних работах (Snell et al., 2024) показано, что увеличение вычислительных затрат во время инференса — путём генерации нескольких вариантов ответа, удлинения цепочек рассуждений (CoT) и использования стратегий голосования — также подчиняется степенным закономерностям. При определённых условиях оптимальное перераспределение FLOP с обучения на инференс может улучшить итоговое качество сильнее, чем простое увеличение модели. Это открывает новое измерение в планировании ресурсов: совместная оптимизация train-compute и test-compute.

Теоретические попытки объяснения

Почему степенные законы возникают столь универсально? Существует несколько теоретических направлений.

  • Распределение данных по закону Ципфа. Естественные данные (текст, изображения) обладают долгосрочной корреляционной структурой, в которой частоты признаков или паттернов подчиняются степенному ранговому распределению. Если модель изучает признаки в порядке убывания их информативности, а предельная отдача от каждого следующего признака убывает степенным образом, то суммарная потеря ведёт себя как степенная функция от ёмкости (Bahri et al., 2024).
  • Эффективная размерность. В работе Bahri et al. (2024) показано, что показатель \alpha можно выразить через внутреннюю (эффективную) размерность датасета и модель: ошибка масштабируется как N^{-d_\text{eff}/d_\text{data}}, где d_\text{eff} отражает сложность моделируемой многообразной структуры данных. Это связывает степенные законы с геометрией данных и архитектурой сети.
  • Статистическая физика обучения. В широких нейронных сетях и ядерных методах потери обобщения часто описываются степенными функциями от количества параметров в связи с концентрацией спектра ядра.

Несмотря на эти попытки, единой замкнутой теории, предсказывающей точные значения показателей \alpha, \beta исходя из свойств задачи, пока не существует, и законы масштабирования остаются в первую очередь надёжным эмпирическим инструментом.

См. также

Литература

  • Hestness, J., Narang, S., Ardalani, N., Diamos, G., Jun, H., Kianinejad, H., Patwary, M., Ali, M., Yang, Y., & Zhou, Y. (2017). Deep Learning Scaling is Predictable, Empirically. arXiv preprint arXiv:1712.00409.
  • Rosenfeld, J. S., Rosenfeld, A., Belinkov, Y., & Shavit, N. (2020). A Constructive Prediction of the Generalization Error Across Scales. International Conference on Learning Representations (ICLR). arXiv:1909.12673.
  • Kaplan, J., McCandlish, S., Henighan, T., Brown, T. B., Chess, B., Child, R., Gray, S., Radford, A., Wu, J., & Amodei, D. (2020). Scaling Laws for Neural Language Models. arXiv preprint arXiv:2001.08361.
  • Hoffmann, J., Borgeaud, S., Mensch, A., Buchatskaya, E., Cai, T., Rutherford, E., de Las Casas, D., Hendricks, L. A., Welbl, J., Clark, A., Hennigan, T., Noland, E., Millican, K., van den Driessche, G., Damoc, B., Guy, A., Osindero, S., Simonyan, K., Elsen, E., Rae, J. W., Vinyals, O., & Sifre, L. (2022). Training Compute-Optimal Large Language Models. arXiv preprint arXiv:2203.15556.
  • Caballero, E., Gupta, K., Rish, I., & Krueger, D. (2023). Broken Neural Scaling Laws. International Conference on Learning Representations (ICLR). arXiv:2210.14891.
  • Snell, C., Lee, J., Xu, K., & Kumar, A. (2024). Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters. arXiv preprint arXiv:2408.03314.
  • Bahri, Y., Dyer, E., Kaplan, J., Lee, J., & Sharma, U. (2024). Explaining Neural Scaling Laws. Proceedings of the National Academy of Sciences, 121(27), e2311878121. (arXiv:2102.06701).
  • Sharma, U., & Kaplan, J. (2022). A Scaling Law for Generative Models. arXiv preprint arXiv:2203.16311.
Личные инструменты