Сооснователь и генеральный директор компании по разработке аудиотехнологий на базе ИИ ElevenLabs Мати Станишевски убежден, что со временем модели искусственного интеллекта в сфере аудио превратятся в стандартный товар, что представляет собой любопытное замечание для фирмы, которая на данный момент активно занимается их созданием.
Выступая на сцене конференции TechCrunch Disrupt 2025 во вторник, основатель ElevenLabs рассказал о своих оценках развития рынка аудио на основе ИИ как в ближайшей, так и в отдаленной перспективе.
По словам Станишевски, специалисты его компании сумели преодолеть ряд трудностей, связанных с архитектурой моделей, и такой акцент сохранится в аудиосекторе на протяжении следующих одного-двух лет.
«В долгосрочной перспективе это станет стандартизированным — в ближайшие пару лет», — отметил Станишевски. «Даже если сохранятся различия — а я считаю, что это будет актуально для определенных голосов и языков, — сами по себе эти различия уменьшатся».
На вопрос, зачем ElevenLabs сосредотачиваться на разработке моделей, если он ожидает их стандартизации в будущем, Станишевски пояснил, что в настоящее время они остаются «ключевым преимуществом и самым значительным прорывом, который можно достичь».
Например, если синтезированные голоса ИИ или взаимодействия с ними звучат неубедительно, это по-прежнему остается задачей, требующей решения.
«Единственный способ ее устранить — самостоятельно разрабатывать модели, а в долгосрочной перспективе другие участники рынка тоже смогут это сделать», — подчеркнул Станишевски.
Он также указал, что те, кто ищет надежные и масштабируемые сценарии применения, скорее всего, продолжат использовать различные модели в зависимости от конкретных задач.
Тем не менее, по прогнозу Станишевски, в течение следующих одного-двух лет все больше моделей перейдут к мультимодальным или интегрированным методам.
«Таким образом, вы сможете генерировать аудио и видео одновременно или объединять аудио с большими языковыми моделями в контексте диалога», — объяснил он, приведя в пример модель Google Veo 3 как иллюстрацию того, чего можно добиться при слиянии моделей.
Основатель компании сообщил, что ElevenLabs намерена установить сотрудничество с другими фирмами и задействовать технологии с открытым исходным кодом, чтобы проверить возможность интеграции своей экспертизы в аудио с возможностями других моделей.
Для ElevenLabs приоритет — развитие как самих моделей, так и приложений на их основе, чтобы обеспечить устойчивую ценность в перспективе, подчеркнул он.
«Подобно тому, как комбинация программного обеспечения и аппаратной части стала ключом к успеху Apple, мы полагаем, что сочетание продукта и ИИ станет формулой для создания наиболее эффективных сценариев использования в этой эпохе», — добавил Станишевски.