RLM для Agents: Deep Research Report

Дата: 25 января 2026 Автор: Research by Claude

TL;DR

RLM — это два разных, но связанных концепта:

Recursive Language Models (Zhang et al., MIT) — inference-time стратегия, где LLM рекурсивно вызывает себя для обработки контекста произвольной длины
Reasoning Language Models (Besta et al.) — модели с расширенными способностями рассуждения, обученные через RL (OpenAI o1, DeepSeek-R1)

Оба подхода критически важны для современных AI агентов.

1. Recursive Language Models (RLM)

Источник

Paper: arxiv.org/abs/2512.24601
Blog: alexzhang13.github.io/blog/2025/rlm
Code: github.com/alexzhang13/rlm
Authors: Alex Zhang, Tim Kraska, Omar Khattab (MIT CSAIL)

Ключевая идея

RLM трактует длинный контекст как часть внешнего окружения, а не как прямой input в модель:

┌─────────────────────────────────────────────┐
│  User Query                                  │
└─────────────────┬───────────────────────────┘
                  │
         ┌────────▼────────┐
         │   Root LLM      │  (Depth=0, видит только query)
         │   (GPT-5)       │
         └────────┬────────┘
                  │
    ┌─────────────▼─────────────┐
    │    Python REPL Environment │
    │  ┌───────────────────────┐ │
    │  │ context = "..."       │ │  ← Контекст как переменная
    │  │ # 10M+ токенов        │ │
    │  └───────────────────────┘ │
    │                             │
    │  model.write_code()        │
    │  model.read_output()       │
    │  model.llm_call(snippet)   │  ← Рекурсивные вызовы
    │                             │
    └─────────────────────────────┘

Как работает рекурсия

Root LLM получает только query (не контекст!)
Контекст хранится в Python REPL как переменная
Модель пишет код для:
- Инспекции частей контекста (context[0:1000])
- Поиска паттернов (grep, regex)
- Декомпозиции на чанки
Для каждого чанка вызывается sub-LLM (рекурсивно)
Результаты агрегируются
Финальный ответ через FINAL(answer)

Emerged Strategies (обнаруженные паттерны)

Стратегия	Описание
Peeking	Сэмплирование начала контекста для понимания структуры
Grepping	Regex/keyword поиск вместо семантического retrieval
Partition + Map	Чанкинг + параллельные рекурсивные вызовы
Summarization	Суммаризация подмножеств для решений верхнего уровня
Answer Verification	Проверка ответов через sub-LLM с малым контекстом

Результаты

OOLONG Benchmark (132k токенов):

RLM(GPT-5-mini) > GPT-5 на 34+ пунктов (+114%)
При сравнимой стоимости API

BrowseComp-Plus (10M+ токенов):

RLM(GPT-5) — 100% accuracy на 1000 документов
Base GPT-5 деградирует после 50 документов

Ключевые преимущества

Infinite context — обрабатывает на 2 порядка больше context window
No information loss — в отличие от summarization
Flexible decomposition — модель сама решает как декомпозировать
Drop-in replacement — rlm.completion() вместо gpt.completion()

Ограничения

Синхронные рекурсивные вызовы (нет параллелизма)
Нет prefix caching между вызовами
Непредсказуемая стоимость/время выполнения

2. Reasoning Language Models (RLMs) via RLVR

Что такое RLVR?

RLVR = Reinforcement Learning with Verifiable Rewards

В отличие от RLHF (где reward model учится на человеческих предпочтениях), RLVR использует объективно верифицируемые награды:

┌────────────────────────────────────────────────────────┐
│                         RLHF                           │
│  Human preferences → Reward Model → Policy optimization │
└────────────────────────────────────────────────────────┘

┌────────────────────────────────────────────────────────┐
│                         RLVR                           │
│  Verifiable answer → Binary reward → Policy optimization│
│  (unit tests, proofs, math checks)                     │
└────────────────────────────────────────────────────────┘

DeepSeek-R1: Прорыв RLVR

Paper: arxiv.org/abs/2501.12948
Published: Nature, 2025

Ключевое открытие: Reasoning capabilities можно развить через чистый RL без SFT на человеческих рассуждениях.

Reward design:

Accuracy reward — правильность финального ответа
Format reward — соблюдение формата (ответ в боксе)

Emergent behaviors:

Self-reflection
Verification
Dynamic strategy adaptation
Chain-of-thought без явного обучения на CoT

GRPO Algorithm

Group Relative Policy Optimization — алгоритм из DeepSeekMath, используемый в R1:

# Ключевое отличие от PPO:
# - Advantage через Monte Carlo rollouts (не learned critic)
# - Whitening advantage (нормализация mean/variance)

advantage = (reward - mean(group_rewards)) / std(group_rewards)

Преимущества:

Не требует обучения value function
Стабильнее для binary/sparse rewards
Лучше масштабируется

3. RL для обучения агентов

Agent-R1

Paper: arxiv.org/abs/2511.14460

End-to-end RL framework для multi-turn agent задач:

┌─────────────────────────────────────────────────┐
│                   Agent-R1                       │
│                                                  │
│  State = history + environment feedback          │
│  Action = token generation + tool calls          │
│  Reward = process rewards + final reward         │
│                                                  │
│  ┌──────────┐    ┌──────────┐                   │
│  │   Tool   │────│  ToolEnv │                   │
│  └──────────┘    └──────────┘                   │
│       │               │                          │
│       ▼               ▼                          │
│  Execute action   Manage state                   │
│  Return output    Compute rewards                │
│                                                  │
└─────────────────────────────────────────────────┘

Инновации:

Action Mask — градиенты только по токенам агента (не промпты/env outputs)
Advantage Alignment — credit assignment к реальным решениям
Process Rewards — dense rewards за промежуточные шаги

Результаты на multi-hop QA:

RL agents: 33-38% exact match
Naive RAG baseline: 13.28%

AGENTRL

Paper: arxiv.org/abs/2510.04206

Scaling agentic RL через:

Multi-task training — ALFWorld, DB, KG, OS, Webshop
Cross-policy sampling — exploration через diverse policy behaviors
Asynchronous framework — параллельный rollout

Результаты: SOTA, превосходит GPT-5 и Claude-Sonnet-4

Memory-R1

Paper: arxiv.org/abs/2508.19828

RL для memory management в агентах:

┌─────────────────┐     ┌─────────────────┐
│ Memory Manager  │────▶│  Answer Agent   │
│ (ADD/UPDATE/    │     │ (Memory         │
│  DELETE/NOOP)   │     │  Distillation)  │
└─────────────────┘     └─────────────────┘
        │                       │
        └───────────────────────┘
              RL Training
            (PPO or GRPO)

LOCOMO benchmark (152 training samples):

F1: +48% vs Mem0
BLEU-1: +69%
LLM-as-Judge: +37%

4. Таксономия RL для LLM

                        RL for LLMs
                            │
        ┌───────────────────┼───────────────────┐
        │                   │                   │
   Pre-training          Alignment           Reasoning
        │                   │                   │
   OctoThinker         ┌────┴────┐            RLVR
                       │         │              │
                     RLHF      DPO/KTO      DeepSeek-R1
                       │         │           OpenAI o1
                   Reward     Direct          QwQ
                   Model    Preference
                              │
                            RLAIF
                         (AI feedback)

RLHF vs DPO vs RLVR

Метод	Reward Source	Training	Use Case
RLHF	Human preferences → Reward model	PPO/GRPO	Alignment, helpfulness
DPO	Human preferences (direct)	Preference optimization	Alignment (simpler)
RLAIF	AI evaluator	PPO/GRPO	Scale, reduce annotation
RLVR	Verifiable (tests, proofs)	GRPO	Reasoning, math, code

5. Implications для AI Agents

Почему это важно

Long-horizon tasks — RLM позволяет агентам работать с контекстом на недели/месяцы
Verifiable reasoning — RLVR даёт агентам надёжные рассуждения для code/math
Memory management — Memory-R1 показывает как учить агентов управлять памятью
Tool use — Agent-R1/AGENTRL демонстрируют обучение tool-calling через RL

Архитектура Modern Agent

┌────────────────────────────────────────────────────────┐
│                    AI Agent 2026                        │
│                                                         │
│  ┌─────────────┐  ┌─────────────┐  ┌─────────────┐     │
│  │   RLM       │  │   RLVR      │  │   Memory    │     │
│  │  (Context   │  │  (Reasoning │  │   R1        │     │
│  │   Folding)  │  │   Quality)  │  │  (Memory)   │     │
│  └─────────────┘  └─────────────┘  └─────────────┘     │
│         │                │                │             │
│         └────────────────┼────────────────┘             │
│                          │                              │
│                    ┌─────▼─────┐                        │
│                    │  Agent-R1 │                        │
│                    │  (Tool    │                        │
│                    │   Use RL) │                        │
│                    └───────────┘                        │
│                                                         │
└────────────────────────────────────────────────────────┘

6. Key Papers & Resources

Must-Read Papers

Paper	Topic	Link
Recursive Language Models	Context folding	arXiv:2512.24601
DeepSeek-R1	RLVR for reasoning	arXiv:2501.12948
Agent-R1	E2E RL for agents	arXiv:2511.14460
AGENTRL	Scaling agentic RL	arXiv:2510.04206
Memory-R1	RL for memory	arXiv:2508.19828
RLMs Blueprint	Reasoning models survey	arXiv:2501.11223
RLVR Analysis	Theory of RLVR	arXiv:2506.14245
RL Meets LLMs Survey	Comprehensive survey	arXiv:2509.16679

Implementations

RLM GitHub — Recursive LM inference
x1 Framework — Modular RLM development
OpenDILab RLHF — RLHF resources

7. Выводы

Главные тренды 2025-2026

От RLHF к RLVR — verifiable rewards для reasoning tasks
Recursive context — модели сами управляют контекстом
E2E agent RL — обучение агентов целиком через RL
Memory as learnable — RL для memory management

Open Problems

Async/parallel recursive calls
Prefix caching для RLM
Scaling RLVR beyond math/code
Combining RLM + RLVR + Agent RL

Generated with Claude Code

niquola/research-rlm-agents-2026-01-25.md

Select an option

No results found