Skip to content

Instantly share code, notes, and snippets.

@niquola
Created January 25, 2026 00:14
Show Gist options
  • Select an option

  • Save niquola/b8fc52d8d4c8530a4e4563ec8fca8140 to your computer and use it in GitHub Desktop.

Select an option

Save niquola/b8fc52d8d4c8530a4e4563ec8fca8140 to your computer and use it in GitHub Desktop.
RLM for Agents - Deep Research (Recursive & Reasoning Language Models)

RLM для Agents: Глубокий Research

Дата: 2026-01-25 Автор: Claude Research Agent

TL;DR

RLM имеет два значения в контексте AI agents:

  1. Recursive Language Models — inference-time стратегия для обработки неограниченного контекста через рекурсивные self-calls
  2. Reasoning Language Models — класс моделей с расширенными reasoning-способностями (o1, DeepSeek-R1, QwQ)

Оба направления используют Reinforcement Learning для обучения.


1. Recursive Language Models (RLM)

Источник

Ключевая идея

RLM — inference-time paradigm, позволяющая LLM обрабатывать контекст на 2 порядка больше context window через:

Query → Root LM (depth=0) → Python REPL → Recursive sub-LM calls → Answer
              ↓                    ↑
         Не видит контекст    Контекст как переменная

Принцип: LLM сама решает как декомпозировать и исследовать контекст программно.

Архитектура

  1. Root LM получает только query (не весь контекст!)
  2. Python REPL хранит контекст как переменную context
  3. Root LM пишет код для исследования контекста
  4. Рекурсивные вызовыllm(sub_query, context_slice) для обработки частей
  5. Финальный ответ через FINAL(answer) или FINAL_VAR(var_name)

Emergent Strategies

RLM сама открывает эффективные паттерны:

Паттерн Описание
Peeking Сначала смотрит начало контекста для понимания структуры
Grepping Regex/keyword поиск вместо семантического retrieval
Partition + Map Режет на куски → parallel sub-calls → aggregate
Summarization Суммирует части для decision-making наверху
Verification Sub-LM проверяет ответы с маленьким контекстом

Результаты

Benchmark Модель Score vs GPT-5
OOLONG (132k tokens) RLM(GPT-5-mini) +34 pts +114%
BrowseComp+ (1000 docs, 10M+ tokens) RLM(GPT-5) 100% GPT-5 деградирует

Ключевой инсайт: RLM(GPT-5-mini) превосходит GPT-5 при сравнимой стоимости API.

Отличия от других подходов

Подход Проблема RLM решение
Agents/ReAct Human-designed workflows LLM сама решает декомпозицию
RAG/Retrieval Нужен индекс, семантический поиск Программный доступ к контексту
Summarization Information loss Динамическая адаптивная стратегия
Long-context LLMs Context rot, деградация качества Рекурсивная обработка частей

Ограничения (текущие)

  • Синхронные вызовы (нет async parallelism)
  • Нет prefix caching между calls
  • Непредсказуемая стоимость/latency
  • Depth=1 в текущих экспериментах

Будущее

RL-training для RLM — учить модель оптимальным стратегиям декомпозиции контекста через reinforcement learning.


2. Reasoning Language Models (RLMs / LRMs)

Источник

Что это

Reasoning Language Models — класс моделей с расширенным reasoning через:

  • Extended chain-of-thought
  • Self-verification и reflection
  • RL-based training

Примеры: OpenAI o1/o3, DeepSeek-R1, Alibaba QwQ, Kimi k1.5

Taxonomy (Blueprint)

Reasoning Structures

Chain (linear)  →  Tree (branching)  →  Graph (arbitrary)  →  Nested
     ↓                   ↓                    ↓                  ↓
  CoT, ReAct       ToT, MCTS           GoT, RAP          Hierarchical

Operators

Категория Operators Описание
Structure Generate, Aggregate, Prune, Restructure Модифицируют reasoning structure
Traversal Select, Backtrack Навигация по структуре
Update Refine, Backpropagate Улучшение без реструктуризации
Evaluate Terminal, Intermediate Оценка качества reasoning

Neural Models

  • Policy Model — генерирует следующие reasoning steps
  • Value Model — оценивает expected contribution к correct solution
  • Reward Model — оценивает качество отдельных steps

Supervision Schemes

Схема Описание Пример
OBS (Outcome-Based) Sparse labels только на final output RLVR
PBS (Process-Based) Dense labels на все intermediate steps PRM
TBS (Trace-Based) PBS + последовательность operators Advanced training

Типы RLMs

  1. Explicit RLMs — reasoning structure external (LLaMA-Berry, Marco-o1)
  2. Implicit RLMs — reasoning internalized в weights (QwQ, DeepSeek-R1)
  3. Structured Prompting — CoT, ToT, GoT без специального training

3. DeepSeek-R1: Case Study

Training Pipeline

DeepSeek-V3-Base
       ↓
[Optional] Cold-start SFT data
       ↓
Reasoning-oriented RL (GRPO)
       ↓
Rejection Sampling + SFT
       ↓
Human preference RL
       ↓
DeepSeek-R1

GRPO Algorithm

Group Relative Policy Optimization — упрощённый RL без critic model:

  1. Sample K outputs для каждого вопроса
  2. Compute rewards для каждого output
  3. Normalize advantages через group statistics
  4. Update policy через relative comparisons

Преимущество: Более efficient чем PPO, не требует отдельной value model.

Emergent Behaviors

"Aha Moment" — модель спонтанно научилась пересматривать подход:

"Wait, wait. Wait. That's an aha moment I can flag here..."

Что emerged без explicit training:

  • Self-verification
  • Reflection и reconsideration
  • Extended thinking (сотни → тысячи tokens)
  • Alternative exploration
  • Dynamic strategy adaptation

DeepSeek-R1-Zero

Pure RL без SFT — доказательство что reasoning можно incentivize только через RL:

Metric Before RL After RL Improvement
AIME 2024 pass@1 15.6% 71.0% +355%
AIME 2024 maj@64 86.7% = o1-0912

Distillation Results

Distillation > RL на маленьких моделях:

Model AIME 2024 vs Base
DeepSeek-R1-Distill-Qwen-7B 55.5% > QwQ-32B
DeepSeek-R1-Distill-Qwen-32B 72.6% SOTA open-source

4. RL Training для Agents

Agent-R1

Paper: arXiv:2511.14460

Ключевые инновации:

  1. Extended MDP для multi-turn agent interactions
  2. Tool + ToolEnv модули для structured tool use
  3. Process Rewards — dense rewards на intermediate steps
  4. Action Mask — credit assignment только на agent decisions

Результаты: RL-trained agents > Naive RAG (38% vs 13% exact match).

AGENTRL

Paper: arXiv:2510.04206

Cross-Policy Sampling:

  • Sample experiences из multiple policy distributions
  • Broader exploration landscape
  • Better data efficiency

Multi-task framework:

  • ALFWorld, DB, KG, OS, WebShop
  • Outperforms GPT-5 и Claude-Sonnet-4

Memory-R1

Paper: arXiv:2508.19828

Два specialized agents:

  1. Memory Manager — structured memory operations через RL
  2. Answer Agent — Memory Distillation policy для filtering RAG

Training: PPO/GRPO с 152 QA pairs достаточно для strong performance.


5. RLHF vs RLVR

RLHF (Human Feedback)

Human preferences → Reward Model → Policy Optimization

Применение: Alignment, helpfulness, safety

RLVR (Verifiable Rewards)

Automatic verification (tests, proofs) → Direct Reward → Policy Optimization

Применение: Math, coding, reasoning с objective correctness

2025 Trends

  1. Online Iterative RLHF — continuous feedback collection
  2. RLTHF — targeted human feedback (6-7% annotation effort)
  3. RLAIF — AI evaluators вместо/вместе с humans
  4. Entropy collapse — performance gains consume policy entropy

6. Key Takeaways

Для практики

  1. Recursive LM — готовое решение для long-context tasks (10M+ tokens)
  2. GRPO — efficient RL algorithm, проще PPO
  3. Distillation работает лучше чем RL на маленьких моделях
  4. Process rewards критичны для agent training
  5. Action masking нужен для proper credit assignment

Для research

  1. Pure RL может incentivize reasoning без SFT
  2. Emergent behaviors возникают из reward structure
  3. Context management — trainable capability через RL
  4. Multi-turn agent RL — understudied area с большим потенциалом

References

Primary Papers

  1. Recursive Language Models — Zhang et al., arXiv:2512.24601
  2. Reasoning LMs Blueprint — Besta et al., arXiv:2501.11223
  3. DeepSeek-R1 — DeepSeek AI, arXiv:2501.12948
  4. Agent-R1 — arXiv:2511.14460
  5. AGENTRL — arXiv:2510.04206
  6. Memory-R1 — arXiv:2508.19828

Surveys

  1. RL Meets LLMs Survey — arXiv:2509.16679
  2. RLHF Deciphered — ACM Computing Surveys 2025
  3. State of RL 2025 — Turing Post

Resources


Generated by Claude Research Agent

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment