Дата: 25 января 2026 Автор: Research by Claude
RLM — это два разных, но связанных концепта:
- Recursive Language Models (Zhang et al., MIT) — inference-time стратегия, где LLM рекурсивно вызывает себя для обработки контекста произвольной длины
- Reasoning Language Models (Besta et al.) — модели с расширенными способностями рассуждения, обученные через RL (OpenAI o1, DeepSeek-R1)
Оба подхода критически важны для современных AI агентов.
- Paper: arxiv.org/abs/2512.24601
- Blog: alexzhang13.github.io/blog/2025/rlm
- Code: github.com/alexzhang13/rlm
- Authors: Alex Zhang, Tim Kraska, Omar Khattab (MIT CSAIL)
RLM трактует длинный контекст как часть внешнего окружения, а не как прямой input в модель:
┌─────────────────────────────────────────────┐
│ User Query │
└─────────────────┬───────────────────────────┘
│
┌────────▼────────┐
│ Root LLM │ (Depth=0, видит только query)
│ (GPT-5) │
└────────┬────────┘
│
┌─────────────▼─────────────┐
│ Python REPL Environment │
│ ┌───────────────────────┐ │
│ │ context = "..." │ │ ← Контекст как переменная
│ │ # 10M+ токенов │ │
│ └───────────────────────┘ │
│ │
│ model.write_code() │
│ model.read_output() │
│ model.llm_call(snippet) │ ← Рекурсивные вызовы
│ │
└─────────────────────────────┘
- Root LLM получает только query (не контекст!)
- Контекст хранится в Python REPL как переменная
- Модель пишет код для:
- Инспекции частей контекста (
context[0:1000]) - Поиска паттернов (
grep, regex) - Декомпозиции на чанки
- Инспекции частей контекста (
- Для каждого чанка вызывается sub-LLM (рекурсивно)
- Результаты агрегируются
- Финальный ответ через
FINAL(answer)
| Стратегия | Описание |
|---|---|
| Peeking | Сэмплирование начала контекста для понимания структуры |
| Grepping | Regex/keyword поиск вместо семантического retrieval |
| Partition + Map | Чанкинг + параллельные рекурсивные вызовы |
| Summarization | Суммаризация подмножеств для решений верхнего уровня |
| Answer Verification | Проверка ответов через sub-LLM с малым контекстом |
OOLONG Benchmark (132k токенов):
- RLM(GPT-5-mini) > GPT-5 на 34+ пунктов (+114%)
- При сравнимой стоимости API
BrowseComp-Plus (10M+ токенов):
- RLM(GPT-5) — 100% accuracy на 1000 документов
- Base GPT-5 деградирует после 50 документов
- Infinite context — обрабатывает на 2 порядка больше context window
- No information loss — в отличие от summarization
- Flexible decomposition — модель сама решает как декомпозировать
- Drop-in replacement —
rlm.completion()вместоgpt.completion()
- Синхронные рекурсивные вызовы (нет параллелизма)
- Нет prefix caching между вызовами
- Непредсказуемая стоимость/время выполнения
RLVR = Reinforcement Learning with Verifiable Rewards
В отличие от RLHF (где reward model учится на человеческих предпочтениях), RLVR использует объективно верифицируемые награды:
┌────────────────────────────────────────────────────────┐
│ RLHF │
│ Human preferences → Reward Model → Policy optimization │
└────────────────────────────────────────────────────────┘
┌────────────────────────────────────────────────────────┐
│ RLVR │
│ Verifiable answer → Binary reward → Policy optimization│
│ (unit tests, proofs, math checks) │
└────────────────────────────────────────────────────────┘
- Paper: arxiv.org/abs/2501.12948
- Published: Nature, 2025
Ключевое открытие: Reasoning capabilities можно развить через чистый RL без SFT на человеческих рассуждениях.
Reward design:
- Accuracy reward — правильность финального ответа
- Format reward — соблюдение формата (ответ в боксе)
Emergent behaviors:
- Self-reflection
- Verification
- Dynamic strategy adaptation
- Chain-of-thought без явного обучения на CoT
Group Relative Policy Optimization — алгоритм из DeepSeekMath, используемый в R1:
# Ключевое отличие от PPO:
# - Advantage через Monte Carlo rollouts (не learned critic)
# - Whitening advantage (нормализация mean/variance)
advantage = (reward - mean(group_rewards)) / std(group_rewards)Преимущества:
- Не требует обучения value function
- Стабильнее для binary/sparse rewards
- Лучше масштабируется
- Paper: arxiv.org/abs/2511.14460
End-to-end RL framework для multi-turn agent задач:
┌─────────────────────────────────────────────────┐
│ Agent-R1 │
│ │
│ State = history + environment feedback │
│ Action = token generation + tool calls │
│ Reward = process rewards + final reward │
│ │
│ ┌──────────┐ ┌──────────┐ │
│ │ Tool │────│ ToolEnv │ │
│ └──────────┘ └──────────┘ │
│ │ │ │
│ ▼ ▼ │
│ Execute action Manage state │
│ Return output Compute rewards │
│ │
└─────────────────────────────────────────────────┘
Инновации:
- Action Mask — градиенты только по токенам агента (не промпты/env outputs)
- Advantage Alignment — credit assignment к реальным решениям
- Process Rewards — dense rewards за промежуточные шаги
Результаты на multi-hop QA:
- RL agents: 33-38% exact match
- Naive RAG baseline: 13.28%
- Paper: arxiv.org/abs/2510.04206
Scaling agentic RL через:
- Multi-task training — ALFWorld, DB, KG, OS, Webshop
- Cross-policy sampling — exploration через diverse policy behaviors
- Asynchronous framework — параллельный rollout
Результаты: SOTA, превосходит GPT-5 и Claude-Sonnet-4
- Paper: arxiv.org/abs/2508.19828
RL для memory management в агентах:
┌─────────────────┐ ┌─────────────────┐
│ Memory Manager │────▶│ Answer Agent │
│ (ADD/UPDATE/ │ │ (Memory │
│ DELETE/NOOP) │ │ Distillation) │
└─────────────────┘ └─────────────────┘
│ │
└───────────────────────┘
RL Training
(PPO or GRPO)
LOCOMO benchmark (152 training samples):
- F1: +48% vs Mem0
- BLEU-1: +69%
- LLM-as-Judge: +37%
RL for LLMs
│
┌───────────────────┼───────────────────┐
│ │ │
Pre-training Alignment Reasoning
│ │ │
OctoThinker ┌────┴────┐ RLVR
│ │ │
RLHF DPO/KTO DeepSeek-R1
│ │ OpenAI o1
Reward Direct QwQ
Model Preference
│
RLAIF
(AI feedback)
| Метод | Reward Source | Training | Use Case |
|---|---|---|---|
| RLHF | Human preferences → Reward model | PPO/GRPO | Alignment, helpfulness |
| DPO | Human preferences (direct) | Preference optimization | Alignment (simpler) |
| RLAIF | AI evaluator | PPO/GRPO | Scale, reduce annotation |
| RLVR | Verifiable (tests, proofs) | GRPO | Reasoning, math, code |
- Long-horizon tasks — RLM позволяет агентам работать с контекстом на недели/месяцы
- Verifiable reasoning — RLVR даёт агентам надёжные рассуждения для code/math
- Memory management — Memory-R1 показывает как учить агентов управлять памятью
- Tool use — Agent-R1/AGENTRL демонстрируют обучение tool-calling через RL
┌────────────────────────────────────────────────────────┐
│ AI Agent 2026 │
│ │
│ ┌─────────────┐ ┌─────────────┐ ┌─────────────┐ │
│ │ RLM │ │ RLVR │ │ Memory │ │
│ │ (Context │ │ (Reasoning │ │ R1 │ │
│ │ Folding) │ │ Quality) │ │ (Memory) │ │
│ └─────────────┘ └─────────────┘ └─────────────┘ │
│ │ │ │ │
│ └────────────────┼────────────────┘ │
│ │ │
│ ┌─────▼─────┐ │
│ │ Agent-R1 │ │
│ │ (Tool │ │
│ │ Use RL) │ │
│ └───────────┘ │
│ │
└────────────────────────────────────────────────────────┘
| Paper | Topic | Link |
|---|---|---|
| Recursive Language Models | Context folding | arXiv:2512.24601 |
| DeepSeek-R1 | RLVR for reasoning | arXiv:2501.12948 |
| Agent-R1 | E2E RL for agents | arXiv:2511.14460 |
| AGENTRL | Scaling agentic RL | arXiv:2510.04206 |
| Memory-R1 | RL for memory | arXiv:2508.19828 |
| RLMs Blueprint | Reasoning models survey | arXiv:2501.11223 |
| RLVR Analysis | Theory of RLVR | arXiv:2506.14245 |
| RL Meets LLMs Survey | Comprehensive survey | arXiv:2509.16679 |
- RLM GitHub — Recursive LM inference
- x1 Framework — Modular RLM development
- OpenDILab RLHF — RLHF resources
- От RLHF к RLVR — verifiable rewards для reasoning tasks
- Recursive context — модели сами управляют контекстом
- E2E agent RL — обучение агентов целиком через RL
- Memory as learnable — RL для memory management
- Async/parallel recursive calls
- Prefix caching для RLM
- Scaling RLVR beyond math/code
- Combining RLM + RLVR + Agent RL
Generated with Claude Code