Китайская компания по разработке искусственного интеллекта DeepSeek представила модель, которая применяет инновационные подходы для существенного повышения способности ИИ к запоминанию информации.
Модель, ориентированная на оптическое распознавание символов (OCR), функционирует путем извлечения текста из изображений и преобразования его в формат, понятный для машин. Эта технология лежит в основе приложений для сканирования, перевода текста на фотографиях и различных инструментов доступности.
Область OCR давно достигла зрелости с множеством эффективных систем, и, судя по публикации и предварительным обзорам, новая разработка DeepSeek демонстрирует результаты на уровне ведущих моделей в основных тестах.
Однако ученые подчеркивают, что ключевое новшество заключается в способе обработки данных, в частности в механизмах хранения и извлечения воспоминаний. Усовершенствование этих процессов может снизить требования к вычислительным ресурсам, что поможет уменьшить значительный и увеличивающийся углеродный след ИИ.
В настоящее время большинство больших языковых моделей разбивают текст на тысячи мелких элементов, известных как токены. Это позволяет преобразовать информацию в форму, доступную для понимания моделями. Тем не менее, по мере удлинения диалогов с пользователями хранение и обработка таких токенов становится затратной. В длительных беседах это приводит к тому, что ИИ забывает ранее полученные сведения и путает данные, что иногда называют "гниением контекста".
Новые методы, предложенные DeepSeek и описанные в их последней публикации, могут решить эту проблему. Вместо сохранения слов в виде токенов система упаковывает текстовую информацию в визуальную форму, словно фотографируя страницы книги. Благодаря этому модель сохраняет почти идентичный объем данных, но с использованием значительно меньшего количества токенов, как установили исследователи.
По сути, OCR-модель служит платформой для тестирования этих инноваций, позволяющих эффективнее компоновать информацию в ИИ-системах.
Помимо замены текстовых токенов на визуальные, архитектура включает многоуровневое сжатие, напоминающее затухание человеческих воспоминаний: менее значимые или старые данные хранятся в слегка размытом виде для экономии места. При этом авторы публикации утверждают, что такая сжатая информация остается доступной в фоновом режиме, обеспечивая высокую эффективность системы.
Текстовые токены традиционно служат основным элементом в ИИ-системах. Переход к визуальным токенам является нестандартным решением, поэтому модель DeepSeek быстро привлекает внимание специалистов. Андреј Карпати, бывший руководитель ИИ в Tesla и один из основателей OpenAI, высоко оценил публикацию в X, отметив, что изображения могут оказаться предпочтительнее текста как входные данные для больших языковых моделей. По его словам, текстовые токены могут быть "расточительными и просто ужасными на входе".
Манлин Ли, доцент кафедры информатики в Северо-Западном университете, считает, что работа предлагает свежий подход к решению проблем памяти в ИИ. "Хотя концепция токенов на основе изображений для хранения контекста не нова, это первое исследование, которое развивает ее до такой степени и демонстрирует практическую осуществимость", — говорит Ли.
Подход способен открыть новые горизонты в исследованиях и применении ИИ, особенно для создания более эффективных ИИ-агентов, отмечает Зихан Ванг, аспирант Северо-Западного университета. Он полагает, что поскольку взаимодействие с ИИ носит непрерывный характер, этот метод поможет моделям лучше запоминать и эффективнее поддерживать пользователей.
Технология также может способствовать генерации большего объема обучающих данных для ИИ-моделей. Разработчики сейчас сталкиваются с острым дефицитом качественного текста для тренировки. Согласно публикации DeepSeek, их OCR-система способна производить свыше 200 000 страниц обучающих данных ежедневно на одной видеокарте.
Тем не менее модель и связанная публикация представляют лишь начальный этап изучения визуальных токенов вместо текстовых для memorization в ИИ. Ли выражает надежду на расширение применения визуальных токенов не только на хранение, но и на процессы рассуждения. В будущем, по ее мнению, стоит исследовать динамичное затухание памяти ИИ, подобное человеческому: способность вспоминать ключевые события из прошлого, но забывать мелочи вроде недавнего обеда. На данный момент, даже с методами DeepSeek, ИИ запоминает и забывает линейно — фокусируясь на свежих данных, а не на наиболее релевантных, добавляет она.
Несмотря на стремление сохранять скромный профиль, DeepSeek из Ханчжоу, Китай, завоевала репутацию пионера в исследованиях ИИ. Компания удивила отрасль в начале года выпуском DeepSeek-R1 — открытой модели рассуждений, которая по производительности соперничала с ведущими западными аналогами, но требовала гораздо меньше вычислительных мощностей.