Модели ИИ для аудио: путь к стандартизации по версии ElevenLabs

Гендиректор ElevenLabs Мати Станишевски прогнозирует, что модели ИИ для аудио со временем станут стандартным товаром, но в ближайшие годы они останутся ключевым преимуществом. Компания планирует фокусироваться на их разработке, мультимодальных подходах и партнерствах для создания ценности. Это заявление было сделано на конференции TechCrunch Disrupt 2025.

Сооснователь и генеральный директор компании по разработке аудиотехнологий на базе ИИ ElevenLabs Мати Станишевски убежден, что со временем модели искусственного интеллекта в сфере аудио превратятся в стандартный товар, что представляет собой любопытное замечание для фирмы, которая на данный момент активно занимается их созданием.

Выступая на сцене конференции TechCrunch Disrupt 2025 во вторник, основатель ElevenLabs рассказал о своих оценках развития рынка аудио на основе ИИ как в ближайшей, так и в отдаленной перспективе.

По словам Станишевски, специалисты его компании сумели преодолеть ряд трудностей, связанных с архитектурой моделей, и такой акцент сохранится в аудиосекторе на протяжении следующих одного-двух лет.

«В долгосрочной перспективе это станет стандартизированным — в ближайшие пару лет», — отметил Станишевски. «Даже если сохранятся различия — а я считаю, что это будет актуально для определенных голосов и языков, — сами по себе эти различия уменьшатся».

На вопрос, зачем ElevenLabs сосредотачиваться на разработке моделей, если он ожидает их стандартизации в будущем, Станишевски пояснил, что в настоящее время они остаются «ключевым преимуществом и самым значительным прорывом, который можно достичь».

Например, если синтезированные голоса ИИ или взаимодействия с ними звучат неубедительно, это по-прежнему остается задачей, требующей решения.

«Единственный способ ее устранить — самостоятельно разрабатывать модели, а в долгосрочной перспективе другие участники рынка тоже смогут это сделать», — подчеркнул Станишевски.

Он также указал, что те, кто ищет надежные и масштабируемые сценарии применения, скорее всего, продолжат использовать различные модели в зависимости от конкретных задач.

Тем не менее, по прогнозу Станишевски, в течение следующих одного-двух лет все больше моделей перейдут к мультимодальным или интегрированным методам.

«Таким образом, вы сможете генерировать аудио и видео одновременно или объединять аудио с большими языковыми моделями в контексте диалога», — объяснил он, приведя в пример модель Google Veo 3 как иллюстрацию того, чего можно добиться при слиянии моделей.

Основатель компании сообщил, что ElevenLabs намерена установить сотрудничество с другими фирмами и задействовать технологии с открытым исходным кодом, чтобы проверить возможность интеграции своей экспертизы в аудио с возможностями других моделей.

Для ElevenLabs приоритет — развитие как самих моделей, так и приложений на их основе, чтобы обеспечить устойчивую ценность в перспективе, подчеркнул он.

«Подобно тому, как комбинация программного обеспечения и аппаратной части стала ключом к успеху Apple, мы полагаем, что сочетание продукта и ИИ станет формулой для создания наиболее эффективных сценариев использования в этой эпохе», — добавил Станишевски.

Гендиректор ElevenLabs: модели ИИ для аудио станут общедоступными

Горячее

Тревожный сигнал: реальная цена ИИ от Google и Amazon

Alibaba запрещает сотрудникам использовать Claude Code

Последний экзамен человечества — отвлекающий манёвр?

Gemini Spark от Google теперь доступен на Mac

Anthropic представила Claude Science — ИИ-помощника для учёных

Сейчас в тренде