- Recall — вспомнить прошлое (эпизодическая память, воспроизведение прошлого опыта с контекстом)
- Imagine — представить будущее (проспективное мышление, моделирование возможных сценариев)
- Relive — пережить заново (повторное переживание с эмоциональным вовлечением)
- Все три режима задействуют default mode network и гиппокамп
- Мозг "конструирует" сцену заново каждый раз — воспоминания пластичны
- Imagine использует те же нейросети, что и recall — будущее строится из фрагментов прошлого
- Relive отличается от recall степенью эмоционального вовлечения — как будто событие происходит сейчас
Источник: https://alexzhang13.github.io/blog/2025/rlm/ Авторы: Alex Zhang & Omar Khattab, MIT CSAIL (Oct 2025)
Деградация качества модели при росте контекста. Не искусственные needle-in-haystack тесты, а реальные сценарии — длинные сессии кода, затяжные диалоги.
Модель получает только запрос (query), а весь контекст хранится как Python-переменная. Через REPL-среду модель сама решает, как взаимодействовать с контекстом — рекурсивно вызывая себя на подмножествах данных.
- Root LM (depth=0) видит только query
- Запускает recursive LM calls (depth=1+) над частями контекста
- Возвращает результат через
FINAL(answer)илиFINAL_VAR(variable_name) - Контекст root-модели остаётся минимальным
- OOLONG benchmark (132k токенов): RLM(GPT-5-mini) превосходит GPT-5 на 34 пункта (+114%)
- 263k токенов: +15 пунктов (+49%)
- BrowseComp-Plus (1000+ документов): RLM(GPT-5) — идеальный результат, baseline GPT-5 деградирует
- Сопоставимые API-косты при значительном выигрыше в качестве
Модель самостоятельно находит интерпретируемые паттерны работы с контекстом:
- Peeking — заглянуть в начало контекста, понять структуру
- Grepping — regex/keyword фильтрация для сужения поиска
- Partition + Map — разбить контекст на чанки для параллельной обработки
- Summarization — извлечение сжатой информации из подмножеств
- Programmatic Output — прямое вычисление вместо генерации
RLM — context-centric, агенты — problem-centric. Вместо человеческой логики декомпозиции задачи, фреймворк доверяет модели самой определить оптимальную стратегию управления контекстом.
- Нет асинхронного выполнения и prefix caching
- Блокирующие рекурсивные вызовы создают латентность (секунды → минуты)
- Нет гарантий по стоимости и времени выполнения
RLM — отдельная ось масштабирования test-time compute, комплементарная reasoning-моделям и агентам. Качество RLM прямо коррелирует с возможностями базовой модели.