RLM для Agents: Глубокий Research

Дата: 2026-01-25 Автор: Claude Research Agent

TL;DR

RLM имеет два значения в контексте AI agents:

Recursive Language Models — inference-time стратегия для обработки неограниченного контекста через рекурсивные self-calls
Reasoning Language Models — класс моделей с расширенными reasoning-способностями (o1, DeepSeek-R1, QwQ)

Оба направления используют Reinforcement Learning для обучения.

1. Recursive Language Models (RLM)

Источник

Paper: arXiv:2512.24601
Авторы: Alex Zhang, Tim Kraska, Omar Khattab (MIT CSAIL)
Блог: alexzhang13.github.io/blog/2025/rlm
GitHub: github.com/alexzhang13/rlm

Ключевая идея

RLM — inference-time paradigm, позволяющая LLM обрабатывать контекст на 2 порядка больше context window через:

Query → Root LM (depth=0) → Python REPL → Recursive sub-LM calls → Answer
              ↓                    ↑
         Не видит контекст    Контекст как переменная

Принцип: LLM сама решает как декомпозировать и исследовать контекст программно.

Архитектура

Root LM получает только query (не весь контекст!)
Python REPL хранит контекст как переменную context
Root LM пишет код для исследования контекста
Рекурсивные вызовы — llm(sub_query, context_slice) для обработки частей
Финальный ответ через FINAL(answer) или FINAL_VAR(var_name)

Emergent Strategies

RLM сама открывает эффективные паттерны:

Паттерн	Описание
Peeking	Сначала смотрит начало контекста для понимания структуры
Grepping	Regex/keyword поиск вместо семантического retrieval
Partition + Map	Режет на куски → parallel sub-calls → aggregate
Summarization	Суммирует части для decision-making наверху
Verification	Sub-LM проверяет ответы с маленьким контекстом

Результаты

Benchmark	Модель	Score	vs GPT-5
OOLONG (132k tokens)	RLM(GPT-5-mini)	+34 pts	+114%
BrowseComp+ (1000 docs, 10M+ tokens)	RLM(GPT-5)	100%	GPT-5 деградирует

Ключевой инсайт: RLM(GPT-5-mini) превосходит GPT-5 при сравнимой стоимости API.

Отличия от других подходов

Подход	Проблема	RLM решение
Agents/ReAct	Human-designed workflows	LLM сама решает декомпозицию
RAG/Retrieval	Нужен индекс, семантический поиск	Программный доступ к контексту
Summarization	Information loss	Динамическая адаптивная стратегия
Long-context LLMs	Context rot, деградация качества	Рекурсивная обработка частей

Ограничения (текущие)

Синхронные вызовы (нет async parallelism)
Нет prefix caching между calls
Непредсказуемая стоимость/latency
Depth=1 в текущих экспериментах

Будущее

RL-training для RLM — учить модель оптимальным стратегиям декомпозиции контекста через reinforcement learning.

2. Reasoning Language Models (RLMs / LRMs)

Источник

Blueprint paper: arXiv:2501.11223 (Besta et al.)
DeepSeek-R1: arXiv:2501.12948

Что это

Reasoning Language Models — класс моделей с расширенным reasoning через:

Extended chain-of-thought
Self-verification и reflection
RL-based training

Примеры: OpenAI o1/o3, DeepSeek-R1, Alibaba QwQ, Kimi k1.5

Taxonomy (Blueprint)

Reasoning Structures

Chain (linear)  →  Tree (branching)  →  Graph (arbitrary)  →  Nested
     ↓                   ↓                    ↓                  ↓
  CoT, ReAct       ToT, MCTS           GoT, RAP          Hierarchical

Operators

Категория	Operators	Описание
Structure	Generate, Aggregate, Prune, Restructure	Модифицируют reasoning structure
Traversal	Select, Backtrack	Навигация по структуре
Update	Refine, Backpropagate	Улучшение без реструктуризации
Evaluate	Terminal, Intermediate	Оценка качества reasoning

Neural Models

Policy Model — генерирует следующие reasoning steps
Value Model — оценивает expected contribution к correct solution
Reward Model — оценивает качество отдельных steps

Supervision Schemes

Схема	Описание	Пример
OBS (Outcome-Based)	Sparse labels только на final output	RLVR
PBS (Process-Based)	Dense labels на все intermediate steps	PRM
TBS (Trace-Based)	PBS + последовательность operators	Advanced training

Типы RLMs

Explicit RLMs — reasoning structure external (LLaMA-Berry, Marco-o1)
Implicit RLMs — reasoning internalized в weights (QwQ, DeepSeek-R1)
Structured Prompting — CoT, ToT, GoT без специального training

3. DeepSeek-R1: Case Study

Training Pipeline

DeepSeek-V3-Base
       ↓
[Optional] Cold-start SFT data
       ↓
Reasoning-oriented RL (GRPO)
       ↓
Rejection Sampling + SFT
       ↓
Human preference RL
       ↓
DeepSeek-R1

GRPO Algorithm

Group Relative Policy Optimization — упрощённый RL без critic model:

Sample K outputs для каждого вопроса
Compute rewards для каждого output
Normalize advantages через group statistics
Update policy через relative comparisons

Преимущество: Более efficient чем PPO, не требует отдельной value model.

Emergent Behaviors

"Aha Moment" — модель спонтанно научилась пересматривать подход:

"Wait, wait. Wait. That's an aha moment I can flag here..."

Что emerged без explicit training:

Self-verification
Reflection и reconsideration
Extended thinking (сотни → тысячи tokens)
Alternative exploration
Dynamic strategy adaptation

DeepSeek-R1-Zero

Pure RL без SFT — доказательство что reasoning можно incentivize только через RL:

Metric	Before RL	After RL	Improvement
AIME 2024 pass@1	15.6%	71.0%	+355%
AIME 2024 maj@64	—	86.7%	= o1-0912

Distillation Results

Distillation > RL на маленьких моделях:

Model	AIME 2024	vs Base
DeepSeek-R1-Distill-Qwen-7B	55.5%	> QwQ-32B
DeepSeek-R1-Distill-Qwen-32B	72.6%	SOTA open-source

4. RL Training для Agents

Agent-R1

Paper: arXiv:2511.14460

Ключевые инновации:

Extended MDP для multi-turn agent interactions
Tool + ToolEnv модули для structured tool use
Process Rewards — dense rewards на intermediate steps
Action Mask — credit assignment только на agent decisions

Результаты: RL-trained agents > Naive RAG (38% vs 13% exact match).

AGENTRL

Paper: arXiv:2510.04206

Cross-Policy Sampling:

Sample experiences из multiple policy distributions
Broader exploration landscape
Better data efficiency

Multi-task framework:

ALFWorld, DB, KG, OS, WebShop
Outperforms GPT-5 и Claude-Sonnet-4

Memory-R1

Paper: arXiv:2508.19828

Два specialized agents:

Memory Manager — structured memory operations через RL
Answer Agent — Memory Distillation policy для filtering RAG

Training: PPO/GRPO с 152 QA pairs достаточно для strong performance.

5. RLHF vs RLVR

RLHF (Human Feedback)

Human preferences → Reward Model → Policy Optimization

Применение: Alignment, helpfulness, safety

RLVR (Verifiable Rewards)

Automatic verification (tests, proofs) → Direct Reward → Policy Optimization

Применение: Math, coding, reasoning с objective correctness

2025 Trends

Online Iterative RLHF — continuous feedback collection
RLTHF — targeted human feedback (6-7% annotation effort)
RLAIF — AI evaluators вместо/вместе с humans
Entropy collapse — performance gains consume policy entropy

6. Key Takeaways

Для практики

Recursive LM — готовое решение для long-context tasks (10M+ tokens)
GRPO — efficient RL algorithm, проще PPO
Distillation работает лучше чем RL на маленьких моделях
Process rewards критичны для agent training
Action masking нужен для proper credit assignment

Для research

Pure RL может incentivize reasoning без SFT
Emergent behaviors возникают из reward structure
Context management — trainable capability через RL
Multi-turn agent RL — understudied area с большим потенциалом

References

Primary Papers

Recursive Language Models — Zhang et al., arXiv:2512.24601
Reasoning LMs Blueprint — Besta et al., arXiv:2501.11223
DeepSeek-R1 — DeepSeek AI, arXiv:2501.12948
Agent-R1 — arXiv:2511.14460
AGENTRL — arXiv:2510.04206
Memory-R1 — arXiv:2508.19828

Surveys

RL Meets LLMs Survey — arXiv:2509.16679
RLHF Deciphered — ACM Computing Surveys 2025
State of RL 2025 — Turing Post

Resources

RLHF Book — comprehensive textbook
awesome-RLHF — curated paper list
RLM GitHub — reference implementation

Generated by Claude Research Agent

niquola/research-rlm-agents-2026-01-25.md

RLM для Agents: Глубокий Research

TL;DR

1. Recursive Language Models (RLM)

Источник

Ключевая идея

Архитектура

Emergent Strategies

Результаты

Отличия от других подходов

Ограничения (текущие)

Будущее

2. Reasoning Language Models (RLMs / LRMs)

Источник

Что это

Taxonomy (Blueprint)

Reasoning Structures

Operators

Neural Models

Supervision Schemes

Типы RLMs

3. DeepSeek-R1: Case Study

Training Pipeline

GRPO Algorithm

Emergent Behaviors

DeepSeek-R1-Zero

Distillation Results

4. RL Training для Agents

Agent-R1

AGENTRL

Memory-R1

5. RLHF vs RLVR

RLHF (Human Feedback)

RLVR (Verifiable Rewards)

2025 Trends

6. Key Takeaways

Для практики

Для research

References

Primary Papers

Surveys

Resources