Skip to content

Instantly share code, notes, and snippets.

@niquola
Created January 25, 2026 00:14
Show Gist options
  • Select an option

  • Save niquola/53f2053aa39723ee80b08a6f81fa9e50 to your computer and use it in GitHub Desktop.

Select an option

Save niquola/53f2053aa39723ee80b08a6f81fa9e50 to your computer and use it in GitHub Desktop.
RLM (Recursive/Reasoning Language Models) for Agents - Deep Research

RLM для Agents: Deep Research Report

Дата: 25 января 2026 Автор: Research by Claude


TL;DR

RLM — это два разных, но связанных концепта:

  1. Recursive Language Models (Zhang et al., MIT) — inference-time стратегия, где LLM рекурсивно вызывает себя для обработки контекста произвольной длины
  2. Reasoning Language Models (Besta et al.) — модели с расширенными способностями рассуждения, обученные через RL (OpenAI o1, DeepSeek-R1)

Оба подхода критически важны для современных AI агентов.


1. Recursive Language Models (RLM)

Источник

Ключевая идея

RLM трактует длинный контекст как часть внешнего окружения, а не как прямой input в модель:

┌─────────────────────────────────────────────┐
│  User Query                                  │
└─────────────────┬───────────────────────────┘
                  │
         ┌────────▼────────┐
         │   Root LLM      │  (Depth=0, видит только query)
         │   (GPT-5)       │
         └────────┬────────┘
                  │
    ┌─────────────▼─────────────┐
    │    Python REPL Environment │
    │  ┌───────────────────────┐ │
    │  │ context = "..."       │ │  ← Контекст как переменная
    │  │ # 10M+ токенов        │ │
    │  └───────────────────────┘ │
    │                             │
    │  model.write_code()        │
    │  model.read_output()       │
    │  model.llm_call(snippet)   │  ← Рекурсивные вызовы
    │                             │
    └─────────────────────────────┘

Как работает рекурсия

  1. Root LLM получает только query (не контекст!)
  2. Контекст хранится в Python REPL как переменная
  3. Модель пишет код для:
    • Инспекции частей контекста (context[0:1000])
    • Поиска паттернов (grep, regex)
    • Декомпозиции на чанки
  4. Для каждого чанка вызывается sub-LLM (рекурсивно)
  5. Результаты агрегируются
  6. Финальный ответ через FINAL(answer)

Emerged Strategies (обнаруженные паттерны)

Стратегия Описание
Peeking Сэмплирование начала контекста для понимания структуры
Grepping Regex/keyword поиск вместо семантического retrieval
Partition + Map Чанкинг + параллельные рекурсивные вызовы
Summarization Суммаризация подмножеств для решений верхнего уровня
Answer Verification Проверка ответов через sub-LLM с малым контекстом

Результаты

OOLONG Benchmark (132k токенов):

  • RLM(GPT-5-mini) > GPT-5 на 34+ пунктов (+114%)
  • При сравнимой стоимости API

BrowseComp-Plus (10M+ токенов):

  • RLM(GPT-5) — 100% accuracy на 1000 документов
  • Base GPT-5 деградирует после 50 документов

Ключевые преимущества

  1. Infinite context — обрабатывает на 2 порядка больше context window
  2. No information loss — в отличие от summarization
  3. Flexible decomposition — модель сама решает как декомпозировать
  4. Drop-in replacementrlm.completion() вместо gpt.completion()

Ограничения

  • Синхронные рекурсивные вызовы (нет параллелизма)
  • Нет prefix caching между вызовами
  • Непредсказуемая стоимость/время выполнения

2. Reasoning Language Models (RLMs) via RLVR

Что такое RLVR?

RLVR = Reinforcement Learning with Verifiable Rewards

В отличие от RLHF (где reward model учится на человеческих предпочтениях), RLVR использует объективно верифицируемые награды:

┌────────────────────────────────────────────────────────┐
│                         RLHF                           │
│  Human preferences → Reward Model → Policy optimization │
└────────────────────────────────────────────────────────┘

┌────────────────────────────────────────────────────────┐
│                         RLVR                           │
│  Verifiable answer → Binary reward → Policy optimization│
│  (unit tests, proofs, math checks)                     │
└────────────────────────────────────────────────────────┘

DeepSeek-R1: Прорыв RLVR

Ключевое открытие: Reasoning capabilities можно развить через чистый RL без SFT на человеческих рассуждениях.

Reward design:

  • Accuracy reward — правильность финального ответа
  • Format reward — соблюдение формата (ответ в боксе)

Emergent behaviors:

  • Self-reflection
  • Verification
  • Dynamic strategy adaptation
  • Chain-of-thought без явного обучения на CoT

GRPO Algorithm

Group Relative Policy Optimization — алгоритм из DeepSeekMath, используемый в R1:

# Ключевое отличие от PPO:
# - Advantage через Monte Carlo rollouts (не learned critic)
# - Whitening advantage (нормализация mean/variance)

advantage = (reward - mean(group_rewards)) / std(group_rewards)

Преимущества:

  • Не требует обучения value function
  • Стабильнее для binary/sparse rewards
  • Лучше масштабируется

3. RL для обучения агентов

Agent-R1

End-to-end RL framework для multi-turn agent задач:

┌─────────────────────────────────────────────────┐
│                   Agent-R1                       │
│                                                  │
│  State = history + environment feedback          │
│  Action = token generation + tool calls          │
│  Reward = process rewards + final reward         │
│                                                  │
│  ┌──────────┐    ┌──────────┐                   │
│  │   Tool   │────│  ToolEnv │                   │
│  └──────────┘    └──────────┘                   │
│       │               │                          │
│       ▼               ▼                          │
│  Execute action   Manage state                   │
│  Return output    Compute rewards                │
│                                                  │
└─────────────────────────────────────────────────┘

Инновации:

  • Action Mask — градиенты только по токенам агента (не промпты/env outputs)
  • Advantage Alignment — credit assignment к реальным решениям
  • Process Rewards — dense rewards за промежуточные шаги

Результаты на multi-hop QA:

  • RL agents: 33-38% exact match
  • Naive RAG baseline: 13.28%

AGENTRL

Scaling agentic RL через:

  • Multi-task training — ALFWorld, DB, KG, OS, Webshop
  • Cross-policy sampling — exploration через diverse policy behaviors
  • Asynchronous framework — параллельный rollout

Результаты: SOTA, превосходит GPT-5 и Claude-Sonnet-4

Memory-R1

RL для memory management в агентах:

┌─────────────────┐     ┌─────────────────┐
│ Memory Manager  │────▶│  Answer Agent   │
│ (ADD/UPDATE/    │     │ (Memory         │
│  DELETE/NOOP)   │     │  Distillation)  │
└─────────────────┘     └─────────────────┘
        │                       │
        └───────────────────────┘
              RL Training
            (PPO or GRPO)

LOCOMO benchmark (152 training samples):

  • F1: +48% vs Mem0
  • BLEU-1: +69%
  • LLM-as-Judge: +37%

4. Таксономия RL для LLM

                        RL for LLMs
                            │
        ┌───────────────────┼───────────────────┐
        │                   │                   │
   Pre-training          Alignment           Reasoning
        │                   │                   │
   OctoThinker         ┌────┴────┐            RLVR
                       │         │              │
                     RLHF      DPO/KTO      DeepSeek-R1
                       │         │           OpenAI o1
                   Reward     Direct          QwQ
                   Model    Preference
                              │
                            RLAIF
                         (AI feedback)

RLHF vs DPO vs RLVR

Метод Reward Source Training Use Case
RLHF Human preferences → Reward model PPO/GRPO Alignment, helpfulness
DPO Human preferences (direct) Preference optimization Alignment (simpler)
RLAIF AI evaluator PPO/GRPO Scale, reduce annotation
RLVR Verifiable (tests, proofs) GRPO Reasoning, math, code

5. Implications для AI Agents

Почему это важно

  1. Long-horizon tasks — RLM позволяет агентам работать с контекстом на недели/месяцы
  2. Verifiable reasoning — RLVR даёт агентам надёжные рассуждения для code/math
  3. Memory management — Memory-R1 показывает как учить агентов управлять памятью
  4. Tool use — Agent-R1/AGENTRL демонстрируют обучение tool-calling через RL

Архитектура Modern Agent

┌────────────────────────────────────────────────────────┐
│                    AI Agent 2026                        │
│                                                         │
│  ┌─────────────┐  ┌─────────────┐  ┌─────────────┐     │
│  │   RLM       │  │   RLVR      │  │   Memory    │     │
│  │  (Context   │  │  (Reasoning │  │   R1        │     │
│  │   Folding)  │  │   Quality)  │  │  (Memory)   │     │
│  └─────────────┘  └─────────────┘  └─────────────┘     │
│         │                │                │             │
│         └────────────────┼────────────────┘             │
│                          │                              │
│                    ┌─────▼─────┐                        │
│                    │  Agent-R1 │                        │
│                    │  (Tool    │                        │
│                    │   Use RL) │                        │
│                    └───────────┘                        │
│                                                         │
└────────────────────────────────────────────────────────┘

6. Key Papers & Resources

Must-Read Papers

Paper Topic Link
Recursive Language Models Context folding arXiv:2512.24601
DeepSeek-R1 RLVR for reasoning arXiv:2501.12948
Agent-R1 E2E RL for agents arXiv:2511.14460
AGENTRL Scaling agentic RL arXiv:2510.04206
Memory-R1 RL for memory arXiv:2508.19828
RLMs Blueprint Reasoning models survey arXiv:2501.11223
RLVR Analysis Theory of RLVR arXiv:2506.14245
RL Meets LLMs Survey Comprehensive survey arXiv:2509.16679

Implementations


7. Выводы

Главные тренды 2025-2026

  1. От RLHF к RLVR — verifiable rewards для reasoning tasks
  2. Recursive context — модели сами управляют контекстом
  3. E2E agent RL — обучение агентов целиком через RL
  4. Memory as learnable — RL для memory management

Open Problems

  • Async/parallel recursive calls
  • Prefix caching для RLM
  • Scaling RLVR beyond math/code
  • Combining RLM + RLVR + Agent RL

Generated with Claude Code

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment