Дата: 2026-01-25 Автор: Claude Research Agent
RLM имеет два значения в контексте AI agents:
- Recursive Language Models — inference-time стратегия для обработки неограниченного контекста через рекурсивные self-calls
- Reasoning Language Models — класс моделей с расширенными reasoning-способностями (o1, DeepSeek-R1, QwQ)
Оба направления используют Reinforcement Learning для обучения.
- Paper: arXiv:2512.24601
- Авторы: Alex Zhang, Tim Kraska, Omar Khattab (MIT CSAIL)
- Блог: alexzhang13.github.io/blog/2025/rlm
- GitHub: github.com/alexzhang13/rlm
RLM — inference-time paradigm, позволяющая LLM обрабатывать контекст на 2 порядка больше context window через:
Query → Root LM (depth=0) → Python REPL → Recursive sub-LM calls → Answer
↓ ↑
Не видит контекст Контекст как переменная
Принцип: LLM сама решает как декомпозировать и исследовать контекст программно.
- Root LM получает только query (не весь контекст!)
- Python REPL хранит контекст как переменную
context - Root LM пишет код для исследования контекста
- Рекурсивные вызовы —
llm(sub_query, context_slice)для обработки частей - Финальный ответ через
FINAL(answer)илиFINAL_VAR(var_name)
RLM сама открывает эффективные паттерны:
| Паттерн | Описание |
|---|---|
| Peeking | Сначала смотрит начало контекста для понимания структуры |
| Grepping | Regex/keyword поиск вместо семантического retrieval |
| Partition + Map | Режет на куски → parallel sub-calls → aggregate |
| Summarization | Суммирует части для decision-making наверху |
| Verification | Sub-LM проверяет ответы с маленьким контекстом |
| Benchmark | Модель | Score | vs GPT-5 |
|---|---|---|---|
| OOLONG (132k tokens) | RLM(GPT-5-mini) | +34 pts | +114% |
| BrowseComp+ (1000 docs, 10M+ tokens) | RLM(GPT-5) | 100% | GPT-5 деградирует |
Ключевой инсайт: RLM(GPT-5-mini) превосходит GPT-5 при сравнимой стоимости API.
| Подход | Проблема | RLM решение |
|---|---|---|
| Agents/ReAct | Human-designed workflows | LLM сама решает декомпозицию |
| RAG/Retrieval | Нужен индекс, семантический поиск | Программный доступ к контексту |
| Summarization | Information loss | Динамическая адаптивная стратегия |
| Long-context LLMs | Context rot, деградация качества | Рекурсивная обработка частей |
- Синхронные вызовы (нет async parallelism)
- Нет prefix caching между calls
- Непредсказуемая стоимость/latency
- Depth=1 в текущих экспериментах
RL-training для RLM — учить модель оптимальным стратегиям декомпозиции контекста через reinforcement learning.
- Blueprint paper: arXiv:2501.11223 (Besta et al.)
- DeepSeek-R1: arXiv:2501.12948
Reasoning Language Models — класс моделей с расширенным reasoning через:
- Extended chain-of-thought
- Self-verification и reflection
- RL-based training
Примеры: OpenAI o1/o3, DeepSeek-R1, Alibaba QwQ, Kimi k1.5
Chain (linear) → Tree (branching) → Graph (arbitrary) → Nested
↓ ↓ ↓ ↓
CoT, ReAct ToT, MCTS GoT, RAP Hierarchical
| Категория | Operators | Описание |
|---|---|---|
| Structure | Generate, Aggregate, Prune, Restructure | Модифицируют reasoning structure |
| Traversal | Select, Backtrack | Навигация по структуре |
| Update | Refine, Backpropagate | Улучшение без реструктуризации |
| Evaluate | Terminal, Intermediate | Оценка качества reasoning |
- Policy Model — генерирует следующие reasoning steps
- Value Model — оценивает expected contribution к correct solution
- Reward Model — оценивает качество отдельных steps
| Схема | Описание | Пример |
|---|---|---|
| OBS (Outcome-Based) | Sparse labels только на final output | RLVR |
| PBS (Process-Based) | Dense labels на все intermediate steps | PRM |
| TBS (Trace-Based) | PBS + последовательность operators | Advanced training |
- Explicit RLMs — reasoning structure external (LLaMA-Berry, Marco-o1)
- Implicit RLMs — reasoning internalized в weights (QwQ, DeepSeek-R1)
- Structured Prompting — CoT, ToT, GoT без специального training
DeepSeek-V3-Base
↓
[Optional] Cold-start SFT data
↓
Reasoning-oriented RL (GRPO)
↓
Rejection Sampling + SFT
↓
Human preference RL
↓
DeepSeek-R1
Group Relative Policy Optimization — упрощённый RL без critic model:
- Sample K outputs для каждого вопроса
- Compute rewards для каждого output
- Normalize advantages через group statistics
- Update policy через relative comparisons
Преимущество: Более efficient чем PPO, не требует отдельной value model.
"Aha Moment" — модель спонтанно научилась пересматривать подход:
"Wait, wait. Wait. That's an aha moment I can flag here..."
Что emerged без explicit training:
- Self-verification
- Reflection и reconsideration
- Extended thinking (сотни → тысячи tokens)
- Alternative exploration
- Dynamic strategy adaptation
Pure RL без SFT — доказательство что reasoning можно incentivize только через RL:
| Metric | Before RL | After RL | Improvement |
|---|---|---|---|
| AIME 2024 pass@1 | 15.6% | 71.0% | +355% |
| AIME 2024 maj@64 | — | 86.7% | = o1-0912 |
Distillation > RL на маленьких моделях:
| Model | AIME 2024 | vs Base |
|---|---|---|
| DeepSeek-R1-Distill-Qwen-7B | 55.5% | > QwQ-32B |
| DeepSeek-R1-Distill-Qwen-32B | 72.6% | SOTA open-source |
Paper: arXiv:2511.14460
Ключевые инновации:
- Extended MDP для multi-turn agent interactions
- Tool + ToolEnv модули для structured tool use
- Process Rewards — dense rewards на intermediate steps
- Action Mask — credit assignment только на agent decisions
Результаты: RL-trained agents > Naive RAG (38% vs 13% exact match).
Paper: arXiv:2510.04206
Cross-Policy Sampling:
- Sample experiences из multiple policy distributions
- Broader exploration landscape
- Better data efficiency
Multi-task framework:
- ALFWorld, DB, KG, OS, WebShop
- Outperforms GPT-5 и Claude-Sonnet-4
Paper: arXiv:2508.19828
Два specialized agents:
- Memory Manager — structured memory operations через RL
- Answer Agent — Memory Distillation policy для filtering RAG
Training: PPO/GRPO с 152 QA pairs достаточно для strong performance.
Human preferences → Reward Model → Policy Optimization
Применение: Alignment, helpfulness, safety
Automatic verification (tests, proofs) → Direct Reward → Policy Optimization
Применение: Math, coding, reasoning с objective correctness
- Online Iterative RLHF — continuous feedback collection
- RLTHF — targeted human feedback (6-7% annotation effort)
- RLAIF — AI evaluators вместо/вместе с humans
- Entropy collapse — performance gains consume policy entropy
- Recursive LM — готовое решение для long-context tasks (10M+ tokens)
- GRPO — efficient RL algorithm, проще PPO
- Distillation работает лучше чем RL на маленьких моделях
- Process rewards критичны для agent training
- Action masking нужен для proper credit assignment
- Pure RL может incentivize reasoning без SFT
- Emergent behaviors возникают из reward structure
- Context management — trainable capability через RL
- Multi-turn agent RL — understudied area с большим потенциалом
- Recursive Language Models — Zhang et al., arXiv:2512.24601
- Reasoning LMs Blueprint — Besta et al., arXiv:2501.11223
- DeepSeek-R1 — DeepSeek AI, arXiv:2501.12948
- Agent-R1 — arXiv:2511.14460
- AGENTRL — arXiv:2510.04206
- Memory-R1 — arXiv:2508.19828
- RL Meets LLMs Survey — arXiv:2509.16679
- RLHF Deciphered — ACM Computing Surveys 2025
- State of RL 2025 — Turing Post
- RLHF Book — comprehensive textbook
- awesome-RLHF — curated paper list
- RLM GitHub — reference implementation
Generated by Claude Research Agent