Команда, отвечающая за Bing в Microsoft, опубликовала открытую модель эмбеддингов Harrier. Она охватывает более 100 языков, работает с контекстным окном в 32 тысячи токенов и прошла обучение на свыше двух миллиардов примеров, дополненных синтетическими данными от GPT-5. По данным разработчиков, Harrier заняла первое место в многоязычном бенчмарке MTEB v2 и превзошла закрытые аналоги от OpenAI и Amazon.
| Ранг (Borda) | Модель | Zero-shot | Активные параметры (млрд) | Общие параметры (млрд) | Размерность эмбеддинга | Макс. токены |
|---|---|---|---|---|---|---|
| 1 | harrier-oss-v1-27b | 78% | 25.6 | 27.0 | 5376 | 131072 |
| 2 | KaLM-Embedding-Gemma3-12B-2511 | 73% | 10.8 | 11.8 | 3840 | 32768 |
| 3 | llama-embed-nemotron-8b | 99% | 7.0 | 7.5 | 4096 | 32768 |
| 4 | Qwen3-Embedding-8B | 99% | 6.9 | 7.6 | 4096 | 32768 |
| 5 | gemini-embedding-001 | 99% | 3072 | 2048 | ||
| 6 | Qwen3-Embedding-4B | 99% | 3.6 | 4.0 | 2560 | 32768 |
| 7 | Octen-Embedding-8B | 99% | 6.9 | 7.6 | 4096 | 32768 |
| 8 | F2LLM-v2-14B | 88% | 13.2 | 14.0 | 5120 | 40960 |
| 9 | F2LLM-v2-8B | 88% | 6.9 | 7.6 | 4096 | 40960 |
| 10 | harrier-oss-v1-0.6b | 78% | 0.440 | 0.596 | 1024 | 32768 |
К основной версии с 27 миллиардами параметров добавили две облегченные — 0.6B и 270M, — чтобы их можно было запускать на не самых мощных устройствах. Все варианты выложены на Hugging Face с лицензией MIT. Далее технологию подключат к Bing и к новым сервисам заземления для ИИ-агентов.
Такие модели помогают ИИ-системам искать нужную информацию, извлекать ее и приводить в порядок для выдачи верных ответов. Microsoft подчеркивает: их значение растет, поскольку ИИ-агенты все чаще самостоятельно справляются со сложными задачами из нескольких шагов.