Связанные правки для Self-Distillation Policy Optimization
Материал из MachineLearning.
На этой служебной странице представлен список последних изменений на связанных страницах. Страницы из списка наблюдения выделены.
< Self-Distillation Policy OptimizationПоследние 50 изменений за 7 дней, на момент времени 19:22, 16 июня 2026.
Показать последние 50 | 100 | 250 | 500 изменений за 1 | 3 | 7 | 14 | 30 дней;
Скрыть малые правки.
16 июня 2026
- (разн.) (история) . . Н Chain-of-thoughts; 12:24 . . (+12 199) . . Ilia Prokofev (Обсуждение | вклад) (Новая: {{well|Статья написана с использованием LLM '''OpenAI GPT-5.4''' и проверена участником ~~~~}} '''Chain-of-thoughts''' (часто со...)
- (разн.) (история) . . Большая языковая модель; 10:58 . . (-2 634) . . Emil Petrov (Обсуждение | вклад) (Исправлены формулы LaTeX)
- (разн.) (история) . . Н Большая языковая модель; 10:43 . . (+12 419) . . Emil Petrov (Обсуждение | вклад) (Новая статья о больших языковых моделях (LLM), написана с Claude Sonnet 4)
- (разн.) (история) . . Group Relative Policy Optimization; 09:41 . . (+2) . . Ilia Prokofev (Обсуждение | вклад)
- (разн.) (история) . . Н Group Relative Policy Optimization; 09:40 . . (+14 698) . . Ilia Prokofev (Обсуждение | вклад) (Новая: {{well|Статья написана с использованием LLM '''OpenAI GPT-5''' и проверена участником ~~~~}} '''Group Relative Policy Optimization''' ('...)
- (разн.) (история) . . Direct Preference Optimization; 09:35 . . (-20) . . Ilia Prokofev (Обсуждение | вклад) (→См. также: )
- (разн.) (история) . . Н Direct Preference Optimization; 09:34 . . (+18 411) . . Ilia Prokofev (Обсуждение | вклад) (Новая: {{well|Статья написана с использованием LLM '''OpenAI GPT-5.4''' и проверена участником ~~~~}} '''Direct Preference Optimization''' ('''...)

