Открытый фреймворк Mastra сжимает диалоги ИИ-агентов в краткие заметки, подражающие человеческой памяти, и расставляет приоритеты с помощью эмодзи. Система достигла лучшего результата на бенчмарке LongMemEval.
У ИИ-агентов серьезная проблема с памятью: чем дольше длится беседа, тем больше токенов накапливается в окне контекста. Модель начинает работать медленнее, дороже и с меньшей точностью. Mastra — открытый фреймворк для систем на базе агентов — предлагает решение в виде подхода под названием "наблюдательная память".
Два фоновых агента следят за разговором и превращают его в сжатые заметки, вместо того чтобы хранить весь лог сообщений в окне контекста. Идея взята из работы человеческого мозга: он сводит миллионы визуальных впечатлений к нескольким ключевым наблюдениям, а не фиксирует каждую мелочь.
Система обходится без векторных баз данных или графов знаний. Заметки хранятся как обычный текст в стандартных хранилищах вроде PostgreSQL, LibSQL или MongoDB и напрямую попадают в окно контекста, минуя поиск по эмбеддингам.
Эмодзи-приоритеты по мотивам логов в разработке
Одна из самых изобретательных идей — система приоритизации сжатых заметок. Mastra адаптировала классические уровни логирования из программирования, заменив их эмодзи, которые языковые модели легко распознают.
Красный кружок 🔴 обозначает важную информацию, желтый 🟡 — детали, которые могут пригодиться, зеленый 🟢 — просто фон без особого веса. Плюс трехкомпонентная модель дат: дата наблюдения, дата упоминания и относительная дата — это, по словам Mastra, усиливает понимание времени.
Дата: 2026-01-15
- 🔴 12:10 Пользователь создает приложение на Next.js с авторизацией Supabase, срок сдачи — неделя (22 января 2026)
- 🔴 12:10 В приложении применяются серверные компоненты с гидратацией на клиенте
- 🟡 12:12 Пользователь интересовался настройкой middleware для защищенных маршрутов
- 🔴 12:15 Пользователь назвал приложение "Acme Dashboard"
Новые сообщения добавляются, пока не достигнут порог в 30 000 токенов по умолчанию. Тогда активируется агент-наблюдатель и сжимает их в заметки с эмодзи-метками.
Степень сжатия сильно зависит от содержимого. Для чисто текстовых диалогов, как в LongMemEval, Mastra показывает коэффициент 3–6 раз, в самом бенчмарке — около 6 раз.
Для агентов с частыми вызовами инструментов — например, браузерных с Playwright и скриншотами или кодеров, сканирующих файлы, — сжатие достигает 5–40 раз. Чем больше шума в выводе инструментов, тем лучше эффект. Скриншот страницы в Playwright на 50 000 токенов сокращается до нескольких сотен.
Если заметки разрастаются за второй порог — 40 000 токенов по умолчанию, — вступает агент-反思атель. Он дополнительно уплотняет их, объединяет похожие записи и отбрасывает устаревшее. Получается трехзвенная система: текущие сообщения, наблюдения и рефлексии.
Лог событий вместо единовременной сводки
Mastra четко разграничивает наблюдательную память от обычной суммаризации, когда историю сжимают разово перед переполнением контекста. Здесь же ведется непрерывный лог событий в режиме только-добавления.
Наблюдатель фиксирует события, решения и изменения по ходу дела. Даже при рефлексии лог просто перестраивается: связываются записи, удаляются повторы, но без суммирования.
Главный плюс по версии Mastra — совместимость с кэшированием промтов от Anthropic, OpenAI и других. Заметки только дописываются, без динамической перекомпиляции, так что префикс промта стабилен и дает полные попадания в кэш на каждом шаге.
Кэш сбрасывается только при рефлексиях, которые редки. Это снижает затраты и решает две ключевые проблемы длинных бесед: падение производительности от избытка истории и лишние токены, занимающие место в контексте.
Наблюдательная память лидирует в LongMemEval
Наблюдательная память набирает 94,87% на бенчмарке LongMemEval с GPT-5 Mini — больше чем на три пункта выше предыдущих рекордов. С GPT-4o результат 84,23%, что превосходит даже Oracle-настройку (с только релевантными диалогами) и лучший показатель Supermemory. Конкуренты вроде Hindsight тратят много стадий на ретрив и нейронный ранжир, а здесь все в один проход со стабильным контекстом.
Есть ограничения: наблюдение работает синхронно и приостанавливает диалог на время обработки. Mastra обещает асинхронный режим в фоне. Модели Claude 4.5 от Anthropic пока не подходят для ролей наблюдателя или рефлектора. Наблюдательная память — преемница прошлых систем Mastra вроде Working Memory и Semantic Recall, выпущенных весной. Код фреймворка открыт на GitHub.
Память для ИИ-агентов — новая гонка архитектур
Год назад китайские исследователи представили GAM — похожую память с двумя агентами "Memorizer" и "Researcher" против "гнили контекста" в длинных чатах. В отличие от текстового подхода Mastra, GAM использует векторный поиск и итеративный ретрив по всей истории.
Тогда же Deepseek выпустил OCR-модель, которая обрабатывает документы как сжатые изображения, уменьшая нагрузку на контекст до 10 раз. Как люди запоминают вид страницы целиком, а не по предложениям.
Ученые из Шанхая описали "Семантическую операционную систему" — пожизненную память ИИ, которая не просто хранит контекст, а управляет, адаптирует и забывает его, как мозг.
Эффективная память для агентов — одно из самых горячих направлений. Недавно его подстегнул личный ассистент OpenClaw. Чатботы вроде ChatGPT давно имеют память, но на базе суммаризации, чреватой ошибками в генеративном ИИ.
Какая бы архитектура ни победила и внедрилась ли专用ная память, надежная инженерия контекста — подача модели только нужной информации вовремя — останется ключевой. Она экономит ресурсы. С нынешними технологиями инженерия контекста все еще нужна, чтобы минимизировать ошибки ИИ.