Perplexity открыла эмбеддинги уровня Google с 32x меньшей памятью

Поисковая система Perplexity на базе ИИ представила две новые модели для текстовых эмбеддингов. Они соответствуют или превосходят решения Google и Alibaba, но расходуют гораздо меньше памяти. Обе модели распространяются с открытым исходным кодом.

Чтобы языковая модель ответила на запрос поиска, сначала приходится отобрать подходящие документы из миллиардов веб-страниц. Эту задачу решают модели эмбеддингов: они превращают запросы и тексты в числовые векторы, по которым легко вычислить семантическое сходство. От качества таких векторов зависит, какие материалы попадут на этап ранжирования и дальше — в модель, формирующую ответ.

Perplexity выложила две модели эмбеддингов: pplx-embed-v1 и pplx-embed-context-v1. Первая подходит для стандартного плотного поиска текстов, вторая учитывает окружение фрагмента в целом документе — это помогает разобраться в неоднозначных местах. Доступны варианты с 0,6 миллиарда и 4 миллиардами параметров.

Двунаправленное чтение добавляет контекста эмбеддингам

Как пишут исследователи, ведущие модели эмбеддингов обычно строят на языковых моделях, которые обрабатывают текст только слева направо. Каждое слово видит лишь предшествующий контекст. Для генерации текстов это приемлемо, но для понимания смысла проблема: значение предложения часто зависит от того, что следует дальше.

Perplexity взяла за основу предобученные модели Qwen3 от Alibaba, изначально односторонние, и доработала их для чтения в обе стороны. Дальше применили метод заполнения пропусков, похожий на подход Google в BERT: в текстах случайным образом маскируют слова, а модель учится угадывать их по окружающему контексту с обеих сторон. Авторы называют это диффузионным предобучением.

Обучение прошло на примерно 250 миллиардах токенов по 30 языкам: половина — англоязычные образовательные сайты из датасета FineWebEdu, вторая половина — 29 других языков из FineWeb2. Тесты на отсеве показали: двунаправленный подход дает прибавку около одного процента по задачам поиска.

Плюс есть и практическая выгода: в отличие от многих конкурентов, pplx-embed не требует добавлять описания задач к каждому запросу. По словам Perplexity, такие приставки иногда даже ухудшают поиск, если они отличаются при индексации и поиске.

Квантизация снижает потребление памяти до 32 раз

Хранение векторов эмбеддингов для миллиардов страниц быстро становится дорогим. Обычно используют 32-битные числа с плавающей запятой (FP32). Perplexity с самого начала обучает свои модели на 8-битных целых числах (INT8), что уменьшает объем памяти в 4 раза без ущерба качеству.

Еще более компактный вариант — бинарный, по одному биту на значение, сокращает требования в 32 раза. Для модели с 4B потеря качества меньше 1,6 процента: ее векторы размером 2560 измерений хранят больше информации, чем 1024 у маленькой модели, утверждает Perplexity.

На бенчмарке MTEB Retrieval (Multilingual, v2) pplx-embed-v1-4B набирает nDCG@10 в 69,66 процента — на уровне Qwen3-Embedding-4B от Alibaba (69,60 процента) и лучше gemini-embedding-001 от Google (67,71 процента), при этом тратя меньше памяти. На ConTEB для контекстного поиска pplx-embed-context-v1-4B достигает 81,96 процента, обгоняя voyage-context-3 от Voyage (79,45 процента) и контекстную модель Anthropic (72,4 процента).

На бенчмарке BERGEN, оценивающем полный цикл RAG от поиска документов до генерации ответа, компактная pplx-embed-v1-0.6B превосходит куда более крупную Qwen3-embedding-4B в трех из пяти заданий. Это делает ее хорошим выбором, когда важны скорость и низкие вычисления.

Реальные запросы поиска раскрывают большие преимущества

Perplexity считает, что публичные бенчмарки лишь частично отражают реальные условия поиска: там мало необычных запросов, шумных документов и сдвигов распределения. Поэтому компания создала два внутренних теста на до 115 тысячах реальных поисковых запросов по более чем 30 миллионам документов с миллиарда сайтов.

Разрывы в результатах здесь заметнее. В тесте PPLXQuery2Query, проверяющем распознавание запросов с одинаковым смыслом, pplx-embed-v1-4B находит 73,5 процента релевантных в топ-10, против 67,9 у Qwen3-Embedding-4B. Модель 0,6B набирает 71,1 процента, обходя Qwen3-Embedding-0.6B (55,1 процента) и BGE-M3 (61,8 процента). В PPLXQuery2Doc по 30 миллионам страниц 4B-модель ловит 91,7 процента релевантных документов в топ-1000, против 88,6 у Qwen3.

Для моделей эмбеддингов как первого фильтра главное — захватить максимум релевантных документов. Пропуски на этом этапе уже не исправить ранжировщиками ниже по цепочке.

Все четыре модели доступны на Hugging Face под лицензией MIT. Они совместимы с API Perplexity и популярными фреймворками вроде Transformers, SentenceTransformers и ONNX. Компания также опубликовала технический отчет с полными результатами оценок.

Perplexity открыла модели эмбеддингов на уровне Google при меньшей памяти

Двунаправленное чтение добавляет контекста эмбеддингам

Квантизация снижает потребление памяти до 32 раз

Реальные запросы поиска раскрывают большие преимущества

Горячее

Возможности OpenCode + Ollama + Qwen3-Coder локально

Разбор 10 агентных проектов GitHub для форкинга

Топ-7 планов для вайб-кодинга

Краткий курс по ComfyUI для новичков

Топ-7 открытых моделей OCR

Сейчас в тренде