Mastra: ИИ-память с эмодзи для сверхсжатия диалогов

Открытый фреймворк Mastra сжимает диалоги ИИ-агентов в краткие заметки, подражающие человеческой памяти, и расставляет приоритеты с помощью эмодзи. Система достигла лучшего результата на бенчмарке LongMemEval.

У ИИ-агентов серьезная проблема с памятью: чем дольше длится беседа, тем больше токенов накапливается в окне контекста. Модель начинает работать медленнее, дороже и с меньшей точностью. Mastra — открытый фреймворк для систем на базе агентов — предлагает решение в виде подхода под названием "наблюдательная память".

Два фоновых агента следят за разговором и превращают его в сжатые заметки, вместо того чтобы хранить весь лог сообщений в окне контекста. Идея взята из работы человеческого мозга: он сводит миллионы визуальных впечатлений к нескольким ключевым наблюдениям, а не фиксирует каждую мелочь.

Система обходится без векторных баз данных или графов знаний. Заметки хранятся как обычный текст в стандартных хранилищах вроде PostgreSQL, LibSQL или MongoDB и напрямую попадают в окно контекста, минуя поиск по эмбеддингам.

Эмодзи-приоритеты по мотивам логов в разработке

Одна из самых изобретательных идей — система приоритизации сжатых заметок. Mastra адаптировала классические уровни логирования из программирования, заменив их эмодзи, которые языковые модели легко распознают.

Красный кружок 🔴 обозначает важную информацию, желтый 🟡 — детали, которые могут пригодиться, зеленый 🟢 — просто фон без особого веса. Плюс трехкомпонентная модель дат: дата наблюдения, дата упоминания и относительная дата — это, по словам Mastra, усиливает понимание времени.

Дата: 2026-01-15
- 🔴 12:10 Пользователь создает приложение на Next.js с авторизацией Supabase, срок сдачи — неделя (22 января 2026)
- 🔴 12:10 В приложении применяются серверные компоненты с гидратацией на клиенте
- 🟡 12:12 Пользователь интересовался настройкой middleware для защищенных маршрутов
- 🔴 12:15 Пользователь назвал приложение "Acme Dashboard"

Новые сообщения добавляются, пока не достигнут порог в 30 000 токенов по умолчанию. Тогда активируется агент-наблюдатель и сжимает их в заметки с эмодзи-метками.

Степень сжатия сильно зависит от содержимого. Для чисто текстовых диалогов, как в LongMemEval, Mastra показывает коэффициент 3–6 раз, в самом бенчмарке — около 6 раз.

Для агентов с частыми вызовами инструментов — например, браузерных с Playwright и скриншотами или кодеров, сканирующих файлы, — сжатие достигает 5–40 раз. Чем больше шума в выводе инструментов, тем лучше эффект. Скриншот страницы в Playwright на 50 000 токенов сокращается до нескольких сотен.

Если заметки разрастаются за второй порог — 40 000 токенов по умолчанию, — вступает агент-反思атель. Он дополнительно уплотняет их, объединяет похожие записи и отбрасывает устаревшее. Получается трехзвенная система: текущие сообщения, наблюдения и рефлексии.

Лог событий вместо единовременной сводки

Mastra четко разграничивает наблюдательную память от обычной суммаризации, когда историю сжимают разово перед переполнением контекста. Здесь же ведется непрерывный лог событий в режиме только-добавления.

Наблюдатель фиксирует события, решения и изменения по ходу дела. Даже при рефлексии лог просто перестраивается: связываются записи, удаляются повторы, но без суммирования.

Главный плюс по версии Mastra — совместимость с кэшированием промтов от Anthropic, OpenAI и других. Заметки только дописываются, без динамической перекомпиляции, так что префикс промта стабилен и дает полные попадания в кэш на каждом шаге.

Кэш сбрасывается только при рефлексиях, которые редки. Это снижает затраты и решает две ключевые проблемы длинных бесед: падение производительности от избытка истории и лишние токены, занимающие место в контексте.

Наблюдательная память лидирует в LongMemEval

Наблюдательная память набирает 94,87% на бенчмарке LongMemEval с GPT-5 Mini — больше чем на три пункта выше предыдущих рекордов. С GPT-4o результат 84,23%, что превосходит даже Oracle-настройку (с только релевантными диалогами) и лучший показатель Supermemory. Конкуренты вроде Hindsight тратят много стадий на ретрив и нейронный ранжир, а здесь все в один проход со стабильным контекстом.

Есть ограничения: наблюдение работает синхронно и приостанавливает диалог на время обработки. Mastra обещает асинхронный режим в фоне. Модели Claude 4.5 от Anthropic пока не подходят для ролей наблюдателя или рефлектора. Наблюдательная память — преемница прошлых систем Mastra вроде Working Memory и Semantic Recall, выпущенных весной. Код фреймворка открыт на GitHub.

Память для ИИ-агентов — новая гонка архитектур

Год назад китайские исследователи представили GAM — похожую память с двумя агентами "Memorizer" и "Researcher" против "гнили контекста" в длинных чатах. В отличие от текстового подхода Mastra, GAM использует векторный поиск и итеративный ретрив по всей истории.

Тогда же Deepseek выпустил OCR-модель, которая обрабатывает документы как сжатые изображения, уменьшая нагрузку на контекст до 10 раз. Как люди запоминают вид страницы целиком, а не по предложениям.

Ученые из Шанхая описали "Семантическую операционную систему" — пожизненную память ИИ, которая не просто хранит контекст, а управляет, адаптирует и забывает его, как мозг.

Эффективная память для агентов — одно из самых горячих направлений. Недавно его подстегнул личный ассистент OpenClaw. Чатботы вроде ChatGPT давно имеют память, но на базе суммаризации, чреватой ошибками в генеративном ИИ.

Какая бы архитектура ни победила и внедрилась ли专用ная память, надежная инженерия контекста — подача модели только нужной информации вовремя — останется ключевой. Она экономит ресурсы. С нынешними технологиями инженерия контекста все еще нужна, чтобы минимизировать ошибки ИИ.

Память Mastra для ИИ с эмодзи светофора

Эмодзи-приоритеты по мотивам логов в разработке

Лог событий вместо единовременной сводки

Наблюдательная память лидирует в LongMemEval

Память для ИИ-агентов — новая гонка архитектур

Горячее

5 лёгких и безопасных альтернатив OpenClaw для ИИ-агентов

Claude Cowork уязвим к краже файлов

Знакомство со Stickerbox: ИИ для детских стикеров

Топ-7 планов для вайб-кодинга

Топ-5 API-провайдеров открытых ИИ-моделей

Сейчас в тренде