Chain-of-thoughts
Материал из MachineLearning.
| | Статья написана с использованием LLM OpenAI GPT-5.4 и проверена участником Ilia Prokofev 16:24, 16 июня 2026 (MSD) |
Chain-of-thoughts (часто сокращается как CoT) — способ организации вывода большой языковой модели, при котором модель перед окончательным ответом порождает последовательность промежуточных шагов рассуждения. В литературе термин чаще всего используется в выражении chain-of-thought prompting, то есть prompting, побуждающий модель решать задачу поэтапно.
Идея chain-of-thoughts приобрела известность после работы Chain-of-Thought Prompting Elicits Reasoning in Large Language Models (2022), где было показано, что добавление в prompt примеров пошагового рассуждения существенно улучшает результаты на задачах арифметического, символического и commonsense reasoning. Позднее этот подход стал одной из опорных техник в исследованиях reasoning-моделей.
Содержание |
Основная идея
Обычный prompt часто требует от модели сразу выдать итоговый ответ:
Подход chain-of-thoughts вводит промежуточную последовательность рассуждений:
Здесь — входной запрос,
— промежуточные шаги рассуждения, а
— окончательный ответ. Важная мысль состоит в том, что сложная задача может быть решена лучше, если модель сначала явно разложит её на подшаги.
Такой подход особенно полезен в задачах, где ответ зависит от нескольких последовательных логических переходов, вычислений или скрытых допущений.
Chain-of-thought prompting
В исходной работе 2022 года chain-of-thoughts рассматривался прежде всего как техника prompting. Модели показывают несколько примеров, в которых решение сопровождается промежуточным объяснением:
- формулируется задача;
- приводится пошаговое рассуждение;
- затем записывается итоговый ответ.
После этого модель получает новый вопрос и продолжает шаблон, порождая собственную цепочку рассуждений. Такой режим называют few-shot chain-of-thought prompting.
Эмпирически было показано, что эффект особенно заметен для достаточно больших моделей. В работе Wei et al. основное улучшение наблюдалось на крупных языковых моделях, тогда как меньшие модели выигрывали заметно слабее.
Zero-shot chain of thought
Позднее было показано, что для многих задач не обязательно вручную подбирать полноценные few-shot demonstrations. В ряде случаев достаточно короткой инструкции вроде:
- Let’s think step by step.
Такой подход получил название zero-shot chain of thought. Он проще few-shot-схемы, так как не требует подбора демонстрационных примеров, но качество его работы сильно зависит от модели, домена и конкретной формулировки запроса.
Почему chain-of-thoughts работают
Единого окончательного теоретического объяснения у эффективности CoT нет, однако в литературе обсуждаются несколько причин.
Во-первых, цепочка рассуждений действует как скрытое разбиение сложной задачи на более простые этапы. Во-вторых, она помогает модели поддерживать и обновлять промежуточное состояние вычисления в текстовой форме. В-третьих, CoT задаёт более удачный формат вывода для задач, где правильность ответа зависит от последовательности дедуктивных или арифметических шагов.
С инженерной точки зрения CoT можно рассматривать как способ вынести часть вычисления в текстовое пространство, доступное autoregressive-модели.
Self-consistency
Одним из наиболее известных расширений chain-of-thoughts стал метод self-consistency, предложенный в работе Self-Consistency Improves Chain of Thought Reasoning in Language Models (2022). Вместо одной цепочки рассуждений модель генерирует несколько разных траекторий:
после чего итоговый ответ выбирается по агрегированию, например большинством:
Идея self-consistency состоит в том, что одна конкретная цепочка рассуждений может оказаться неудачной, тогда как несколько независимых цепочек позволяют лучше приблизить правильный ответ.
Связь с reasoning-моделями
Chain-of-thoughts сыграли важную роль в переходе от обычных instruction-tuned моделей к специализированным reasoning-моделям. Если ранние работы в основном рассматривали CoT как prompt engineering, то позднейшие исследования начали использовать цепочки рассуждений как:
- обучающие демонстрации;
- источник synthetic training data;
- промежуточное представление при post-training;
- объект для search-based inference, например в схемах типа Tree-of-Thought.
Таким образом, chain-of-thoughts перестали быть только эвристикой prompting и превратились в более общий принцип организации inference-time computation.
Ограничения
Несмотря на успех, у подхода есть важные ограничения.
- Наличие длинной цепочки рассуждений не гарантирует корректность ответа.
- Модель может порождать правдоподобное, но ложное рассуждение.
- Для некоторых задач chain-of-thoughts увеличивают стоимость inference по времени и числу токенов.
- Не для всех моделей и доменов явное рассуждение одинаково полезно.
- Иногда модель может прийти к правильному ответу более коротким путём, чем развёрнутая текстовая цепочка.
Поэтому chain-of-thoughts нельзя отождествлять с «настоящим» внутренним reasoning модели. Скорее, это наблюдаемая текстовая траектория, которая часто, но не всегда, помогает получить лучший ответ.
Значение для alignment
В задачах alignment chain-of-thoughts важны по двум причинам. Во-первых, они улучшают решение сложных задач и потому повышают полезность модели. Во-вторых, они дают исследователю дополнительный уровень наблюдаемости: можно анализировать не только финальный ответ, но и промежуточные шаги, по которым модель к нему пришла.
Именно поэтому chain-of-thoughts тесно связаны с современными направлениями:
- Group Relative Policy Optimization и другими методами RL для reasoning LLM;
- rubric-based evaluation и alignment;
- self-consistency;
- tree search и deliberate inference.
Исторический контекст
Ключевой публикацией считается работа:
- Wei J., Wang X., Schuurmans D., Bosma M., Ichter B., Xia F., Chi E., Le Q., Zhou D. Chain-of-Thought Prompting Elicits Reasoning in Large Language Models (2022).
Среди ранних продолжений особенно выделяются:
- Wang X. et al. Self-Consistency Improves Chain of Thought Reasoning in Language Models (2022);
- Yao S. et al. Tree of Thoughts: Deliberate Problem Solving with Large Language Models (2023);
- Zhou D. et al. Least-to-Most Prompting Enables Complex Reasoning in Large Language Models (2023).
В совокупности эти работы оформили chain-of-thoughts как самостоятельное направление исследований на стыке prompting, inference-time search и обучения reasoning behavior.
См. также
Литература
- Wei J., Wang X., Schuurmans D., Bosma M., Ichter B., Xia F., Chi E., Le Q., Zhou D. Chain-of-Thought Prompting Elicits Reasoning in Large Language Models. arXiv:2201.11903, 2022. https://arxiv.org/abs/2201.11903
- Wang X., Wei J., Schuurmans D., Le Q., Chi E., Narang S., Chowdhery A., Zhou D. Self-Consistency Improves Chain of Thought Reasoning in Language Models. arXiv:2203.11171, 2022. https://arxiv.org/abs/2203.11171
- Yao S., Yu D., Zhao J., Shafran I., Narasimhan K., Cao Y., Narayanan K., Griffiths T. Tree of Thoughts: Deliberate Problem Solving with Large Language Models. arXiv:2305.10601, 2023. https://arxiv.org/abs/2305.10601
- Zhou D., Scharli N., Hou L., Wei J., Scales N., Wang X., Chi E., Zhou D., Le Q. Least-to-Most Prompting Enables Complex Reasoning in Large Language Models. arXiv:2205.10625, 2023. https://arxiv.org/abs/2205.10625

