Запуск первой голосовой модели
Компания Cohere, ориентированная на ИИ-решения для бизнеса, выпустила свою первую модель для работы с голосом. Transcribe представляет собой открытую систему автоматического распознавания речи, подходящую для задач вроде ведения заметок и изучения устной речи.
Параметры и языковая поддержка
Объем модели составляет всего 2 миллиарда параметров, что позволяет использовать ее на видеокартах потребительского уровня при самостоятельном развертывании. На данный момент Transcribe охватывает 14 языков: английский, французский, немецкий, итальянский, испанский, португальский, греческий, нидерландский, польский, китайский, японский, корейский, вьетнамский и арабский.
Результаты в тестах
Разработчики утверждают, что Transcribe опережает Zoom Scribe v1, IBM Granite 4.0 1B, ElevenLabs Scribe v2 и Qwen3-ASR-1.7B Speech в лидерборде Open ASR на Hugging Face. Средний показатель word error rate (WER) у нее равен 5,42 — это лучший результат среди участников бенчмарка.
При проверке людьми на точность, связность текста и удобство применения модель показывает средний процент побед над соперниками в 61%. Правда, с португальским, немецким и испанским она справляется хуже конкурентов.
Скорость работы
Transcribe способна за минуту обработать 525 минут аудио — это высокий показатель для моделей подобного размера.
Интеграция и доступ
Компания намерена внедрить Transcribe в платформу North для координации ИИ-агентов в корпоративной среде. Модель уже доступна бесплатно через API, а также появится на платформе Model Vault Cohere, где обеспечивается управляемый запуск моделей.
Рост спроса на такие технологии
Системы распознавания речи становятся все популярнее благодаря приложениям для записи заметок и голосового ввода, таким как Granola и Wispr Flow.
Дела Cohere
В начале года Cohere сообщила инвесторам о годовой повторяющейся выручке в 240 миллионов долларов по итогам 2025-го. Гендиректор Эйдан Гомес отметил, что компания может вскоре выйти на публичный рынок.