Участник:Vokov/LLM
Материал из MachineLearning.
| | Статья написана с использованием LLM DeepSeek-V4 Preview и проверена участником К.В.Воронцов 10:49, 29 июня 2026 (MSD) |
|
Большие языковые модели (англ. large language models, LLM) — класс моделей машинного обучения, основанных на глубоких нейронных сетях и обученных на чрезвычайно больших объёмах текстовых данных с целью понимать, генерировать и обрабатывать естественный язык. Современные LLM, как правило, используют архитектуру трансформера и содержат от сотен миллионов до нескольких триллионов параметров. Благодаря самообучению на разнородных текстах они приобретают способность к выполнению широкого круга задач без специального дообучения: машинный перевод, ответы на вопросы, суммаризация, написание программного кода, ведение диалога и многое другое.
LLM лежат в основе таких известных систем, как GPT-4, Claude, Gemini, Llama, DeepSeek и Qwen. Они рассматриваются как ключевой компонент современного искусственного интеллекта и движущая сила генеративных технологий.
Архитектура трансформера и механизм внимания
Основой подавляющего большинства больших языковых моделей служит архитектура трансформера, предложенная в работе «Attention Is All You Need» (Vaswani et al., 2017)[1]. Трансформер отказался от рекуррентных и свёрточных слоёв, использовавшихся ранее для обработки последовательностей, и полностью построен на механизме внимания (attention). Это позволило значительно эффективнее обрабатывать длинные тексты и распараллеливать вычисления, что критически важно при обучении на гигантских массивах данных.
Само-внимание (self-attention)
Центральный элемент трансформера — многоголовое само-внимание (multi-head self-attention). Его идею можно пояснить через аналогию с поиском информации в библиотеке: у вас есть запрос (query), для каждой книги есть ключ (key) — её описание, и содержание (value) — полный текст. Внимание сопоставляет запрос с ключами всех книг, вычисляет релевантность и на её основе взвешенно суммирует содержимое книг.
Формально, для последовательности входных векторов (представляющих слова или токены) вычисляются три матрицы: запросов , ключей
и значений
. Выход внимания определяется как
где
— размерность ключей, а softmax берётся по строке и превращает скалярные произведения в вероятностное распределение весов. Деление на
предотвращает слишком резкие градиенты.
Иными словами, каждое слово в предложении «смотрит» на все остальные и решает, насколько они важны для его понимания в данном контексте. Так модель улавливает зависимости между отдалёнными частями текста — например, связь местоимения с именем, упомянутым несколькими предложениями ранее.
Многоголовое внимание и позиционное кодирование
Вместо одного внимания используется несколько «голов» (heads), каждая из которых работает в своём подпространстве. Это позволяет модели одновременно следить за разными типами отношений (синтаксис, семантика, ссылки). Выходы всех голов объединяются и линейно преобразуются.
Поскольку механизм внимания сам по себе не учитывает порядок слов (он симметричен относительно перестановки входов), в трансформере используются позиционные кодировки (positional encodings) — векторы, добавляемые к входным представлениям токенов и несущие информацию об их положении в последовательности. В оригинальной работе применялись синусоидальные функции; позже стали популярны обучаемые позиционные представления, а в современных LLM — вращающиеся позиционные кодировки (RoPE), которые лучше обобщаются на длинные контексты.
Энкодер, декодер и современные варианты
Полная архитектура трансформера состоит из энкодера (кодировщика), сжимающего входную последовательность в контекстное представление, и декодера (раскодировщика), генерирующего выходную последовательность. Однако в больших языковых моделях чаще применяется только декодер (decoder-only), как в серии GPT: модель предсказывает следующий токен на основе предыдущих, используя каузальное (маскированное) само-внимание, которое запрещает «заглядывать вперёд». Такой подход естественно подходит для генерации текста и легче масштабируется.
История развития больших языковых моделей
Появление термина LLM
Точное авторство термина «Large Language Model» установить сложно. Описательно он применялся по мере роста размеров нейросетевых языковых моделей. В академической литературе словосочетание стало широко употребляться после выхода GPT-2 (Radford et al., 2019) и особенно GPT-3 (Brown et al., 2020), чьи 175 миллиардов параметров поразили сообщество. К 2020–2021 году обозначение LLM закрепилось как общепринятое название для моделей на основе трансформеров, предобученных на огромных текстовых корпусах и насчитывающих миллиарды параметров.
Основные вехи развития
Ранние языковые модели (2013–2018). Первыми нейросетевыми языковыми моделями, получившими практическое значение, стали Word2Vec (Mikolov et al., 2013) и GloVe (Pennington et al., 2014), изучавшие статические векторные представления слов. Затем появились контекстные модели: ELMo (Peters et al., 2018) и BERT (Devlin et al., 2019), которые использовали предобучение на больших корпусах и тонкую настройку (fine-tuning) для конкретных задач. BERT уже имел 340 миллионов параметров и на момент создания считался «большим».
GPT, T5 и эра масштабирования (2018–2020). OpenAI выпустила GPT-1 (2018) и GPT-2 (2019) — decoder-only трансформеры, обученные на задаче предсказания следующего слова. GPT-2 с 1,5 млрд параметров показал, что модели могут генерировать связные тексты, иногда почти неотличимые от человеческих. T5 (Raffel et al., 2020) представил унифицированный текстово-текстовый подход. GPT-3 (2020) с 175 млрд параметров продемонстрировал феномен in-context learning — способность решать новые задачи по нескольким примерам без дообучения, и фактически дал старт индустрии LLM.
InstructGPT и выравнивание (2022). Исследователи OpenAI предложили метод RLHF для точной настройки языковых моделей под инструкции и предпочтения человека. InstructGPT (Ouyang et al., 2022), построенный на основе GPT-3, показал, что относительно небольшая модель, выровненная с помощью обратной связи от людей, даёт более полезные и безопасные ответы, чем намного более крупная сырая GPT-3. Этот подход лёг в основу ChatGPT и последовавших систем[2].
LoRA и эффективная адаптация (2021). С ростом моделей полное дообучение стало дорогостоящим. Метод LoRA (Hu et al., 2021) позволил адаптировать LLM, добавляя лишь небольшое число обучаемых параметров в виде низкоранговых матриц к существующим весам, что радикально снизило вычислительные затраты и открыло дорогу массовому применению community-driven fine-tuning[3].
Рассуждения (reasoning) и цепочка мыслей (2022–2025). Приём «chain-of-thought» (Wei et al., 2022) показал, что LLM значительно улучшают решение сложных задач, если им дать возможность генерировать промежуточные шаги. Эта способность была усилена в GPT-4 (2023), Claude 3 (2024), Gemini (2024). Следующим шагом стали модели, специально обученные рассуждать «внутренне» — OpenAI o1 (2024) и DeepSeek-R1 (2025), которые используют большие бюджеты вычислений на этапе вывода для проверки и корректировки собственных цепочек мыслей, достигая результатов, сопоставимых с экспертными.
Смесь экспертов (MoE, 2023–2024). Архитектура смеси экспертов (Mixture of Experts) давно изучалась (Shazeer et al., 2017), но её массовое внедрение в открытые LLM произошло с выходом Mixtral 8x7B (Mistral AI, 2023). В MoE модель содержит множество «экспертов» — параллельных feed-forward подсетей, и для каждого токена активируется лишь часть из них. Это даёт высокую ёмкость при умеренных вычислительных затратах на инференс. По такому принципу построены GPT-4, Gemini, Qwen2.5-MoE и DeepSeek-V2/V3.
Retrieval-Augmented Generation (RAG, 2020). RAG (Lewis et al., 2020) объединяет генеративные модели с модулем поиска по внешней базе знаний: модель во время генерации подбирает релевантные документы и опирается на них, что позволяет давать актуальные фактологические ответы без переобучения и уменьшает галлюцинации. RAG стал популярным подходом для построения корпоративных вопросно-ответных систем и чат-ботов, работающих с приватными данными[4].
Engram и дифференцируемая память (2023–2024). Модель Engram (DeepMind, 2023) представляет собой масштабируемую дифференцируемую память, которая может подключаться к LLM для точного запоминания и извлечения фактов без их «впечатывания» в веса сети. Это направление продолжает линию Neural Turing Machine и Memory Networks, и нацелено на устранение галлюцинаций и повышение контролируемости знаний. Хотя Engram не стал массовым стандартом, он иллюстрирует тренд на гибридизацию параметрической памяти с внешним хранилищем[5].
Диффузионные языковые модели (LLDM, 2024–2025). Традиционно LLM генерируют текст авторегрессивно — токен за токеном слева направо. Альтернативой выступают диффузионные языковые модели (Large Language Diffusion Models), вдохновлённые успехом диффузии в изображениях. Модель LLaDA (Large Language Diffusion with mAsked Diffusion, 2025) показала, что текст можно порождать, начиная с полностью зашумлённой последовательности и итеративно «очищая» её с помощью денойзинг-сети. Это даёт естественный параллелизм, потенциально более высокое качество и управляемость генерации, открывая новую ветвь развития LLM[6].
Современные мировые LLM: сравнение и конкурентные преимущества
По состоянию на 2026 год рынок больших языковых моделей представлен несколькими ведущими семействами, различающимися по архитектуре, доступности, мультимодальности и специализации. Ниже приведён обзор ключевых игроков.
GPT-4o (OpenAI)
Флагманская мультимодальная модель, принимающая на вход текст, изображения и аудио. Отличается низкой задержкой ответа, развитой экосистемой (ChatGPT, API, Plugins), интеграцией с инструментами и кодом. Сильные стороны: генерация и понимание естественного языка, широкая база пользователей, постоянные обновления. Ограничения: проприетарность, стоимость доступа к максимальным версиям, умеренные способности к очень длинному контексту по сравнению с конкурентами.
Claude 3.5 Sonnet и Claude 4 (Anthropic)
Семейство моделей, спроектированное с упором на безопасность и честность (Constitutional AI). Claude 3.5 Sonnet и новейший Claude 4 предлагают контекст до 200–500 тысяч токенов, высокую точность в аналитике и программировании, особенно в задачах на длинных документах. Конкурентное преимущество — надёжность, низкая склонность к галлюцинациям и вредному контенту, глубокая работа с большими объёмами текста. Модели проприетарны, доступны через API и интерфейс.
Gemini 2.5 Pro (Google DeepMind)
Мультимодальная модель, тесно интегрированная с поиском Google и облачной инфраструктурой. Gemini 2.5 Pro отличается очень большим контекстным окном (до 1–2 млн токенов), нативной обработкой видео и аудио, сильными математическими и научными рассуждениями. Преимущество — доступ к свежей информации через поисковый индекс, мощная аппаратная база TPU, широкий набор сервисов Google. Проприетарная модель.
Llama 4 (Meta)
Открытое семейство моделей (open-weight) от Meta, продолжающее линию Llama 2 и 3. Llama 4 доступна в размерах от нескольких миллиардов до сотен миллиардов параметров, поддерживает мультимодальность и многозначие. Главное преимущество — открытость: исследователи и компании могут свободно загружать, дообучать и развёртывать модель на своём оборудовании, что стимулирует сообщество и создание производных инструментов. Качество несколько уступает лучшим проприетарным моделям, но быстро сокращает отставание.
DeepSeek-V3 и DeepSeek-R1 (DeepSeek)
Китайские модели, продемонстрировавшие выдающуюся эффективность. DeepSeek-V3 — модель с архитектурой MoE, обученная с использованием предсказания нескольких токенов (multi-token prediction) и с крайне экономичным бюджетом. DeepSeek-R1 специализируется на рассуждениях, достигая уровня OpenAI o1 при значительно меньшей стоимости инференса. Открытые веса и детальные технические отчёты делают их привлекательными для академических исследований и коммерческого внедрения с контролируемым бюджетом[7].
Qwen3 (Alibaba)
Серия открытых мультимодальных моделей, охватывающая текст, изображения, аудио и видео. Qwen3 отличается широкой поддержкой языков (особенно азиатских), хорошей производительностью в генерации кода и визуальном понимании. Модели доступны в размерах от 0,5B до 235B параметров (MoE), что позволяет развёртывать их на устройствах с ограниченными ресурсами. Конкурентное преимущество — открытость, мультимодальность и сильная экосистема инструментов для разработчиков.
Сравнительная таблица
| Модель | Организация | Открытость | Мультимодальность | Контекст (макс.) | Сильные стороны |
|---|---|---|---|---|---|
| GPT-4o | OpenAI | Проприетарная | Текст, изображение, аудио | ~128k токенов | Экосистема, скорость, универсальность |
| Claude 4 | Anthropic | Проприетарная | Текст, изображение | ~500k токенов | Безопасность, честность, работа с длинными документами |
| Gemini 2.5 Pro | Google DeepMind | Проприетарная | Текст, изображение, аудио, видео | ~2M токенов | Интеграция с поиском, научные рассуждения, длинный контекст |
| Llama 4 | Meta | Открытые веса | Текст, изображение | ~128k–1M токенов (вариативно) | Открытость, сообщество, адаптируемость |
| DeepSeek-V3/R1 | DeepSeek | Открытые веса | Текст | ~128k токенов | Эффективность, сильное рассуждение, низкая стоимость |
| Qwen3 | Alibaba | Открытые веса | Текст, изображение, аудио, видео | ~1M токенов | Мультимодальность, многозначие, широкий размерный ряд |
См. также
- Генеративный искусственный интеллект
- Обучение с подкреплением с обратной связью от человека
- Retrieval-Augmented Generation
- Промпт-инжиниринг
- Галлюцинация (искусственный интеллект)
- Оценка языковых моделей
Литература
- Vaswani A. и др. Attention Is All You Need // NeurIPS. — 2017.
- Radford A. и др. Language Models are Unsupervised Multitask Learners (GPT-2) // OpenAI Blog. — 2019.
- Brown T. B. и др. Language Models are Few-Shot Learners (GPT-3) // NeurIPS. — 2020.
- Ouyang L. и др. Training language models to follow instructions with human feedback // NeurIPS. — 2022.
- Hu E. J. и др. LoRA: Low-Rank Adaptation of Large Language Models // ICLR. — 2022.
- Lewis P. и др. Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks // NeurIPS. — 2020.
- Shazeer N. и др. Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer // ICLR. — 2017.
- Wei J. и др. Chain-of-Thought Prompting Elicits Reasoning in Large Language Models // NeurIPS. — 2022.
- DeepSeek-AI DeepSeek-V3 Technical Report // arXiv preprint. — 2025.
- Anonymous Engram: Scaling up a Differentiable Memory for Large-Scale Knowledge Retrieval // arXiv preprint. — 2023.
- Anonymous LLaDA: Large Language Diffusion with mAsked Diffusion // arXiv preprint. — 2025.

