Запуск новых моделей от индийской лаборатории
Индийская AI-лаборатория Sarvam представила свежее поколение больших языковых моделей. Компания уверена: компактные и экономичные открытые модели ИИ отберут часть рынка у затратных систем от гигантов из США и Китая.
Анонс прошел на саммите India AI Impact Summit в Нью-Дели. Это вписывается в стратегию индийского правительства по уменьшению зависимости от зарубежных платформ ИИ с акцентом на локальные языки и сценарии применения.
В линейку вошли модели с 30 и 105 миллиардами параметров, система преобразования текста в речь, речи в текст и модель для разбора документов. По сравнению с Sarvam 1 на 2 миллиарда параметров, вышедшей в октябре 2024 года, это серьезный шаг вперед.
Модели на 30 и 105 миллиардов параметров построены по архитектуре mixture-of-experts: за раз задействуется лишь часть параметров, что сильно удешевляет вычисления, уточнили в Sarvam. Версия на 30 миллиардов работает с контекстом в 32 000 токенов — подходит для живых диалогов, а большая модель тянет 128 000 токенов для многоэтапного мышления.

Новые ИИ-модели Sarvam обучили с нуля, без доработки чужих открытых систем. Модель на 30 миллиардов прошла предобучение на примерно 16 триллионах текстовых токенов, а 105-миллиардная — на триллионах токенов из разных индийских языков.
Стартап ориентировал модели на быстрые приложения вроде голосовых помощников и чат-ботов на индийских языках.

Обучение прошло на мощностях из программы IndiaAI Mission при поддержке дата-центра Yotta и экспертизы Nvidia.
В Sarvam намерены масштабировать модели продуманно, с упором на практические задачи, а не на размер.
«Мы подходим к масштабированию осознанно, — отметил сооснователь Sarvam Пратиуш Кумар на презентации. — Бездумного роста не будет. Нужно разобраться в задачах, которые по-настоящему важны на большом масштабе, и развивать их».
Sarvam опубликует исходники моделей на 30 и 105 миллиардов параметров в открытый доступ, хотя не уточнила, поделятся ли данными для обучения или полным кодом тренировки.
Компания анонсировала разработку целевых ИИ-систем: моделей для программирования, корпоративных инструментов в продукте Sarvam for Work и платформы разговорных агентов Samvaad.
Sarvam запустили в 2023 году. Стартап собрал свыше 50 миллионов долларов инвестиций, среди бэкеров Lightspeed Venture Partners, Khosla Ventures и Peak XV Partners (бывшая Sequoia Capital India).