Новости и статьи об искусственном интеллекте и нейросетях. Мы собираем и обрабатываем самую актуальную информацию из мира AI. О проекте
Speechify расширяет свое расширение для Chrome, добавляя голосовой ввод текста и разговорного ассистента для вопросов о веб-страницах. Инструмент поддерживает английский, исправляет ошибки и учится на использовании, хотя пока уступает конкурентам по точности. В будущем функции появятся в других приложениях, а также планируется разработка агентов для автоматизации задач вроде звонков.
Новая волна носимых гаджетов с ИИ интегрирует искусственный интеллект в повседневность, предлагая инструменты для продуктивности и эмоциональной поддержки. Среди доступных устройств выделяются Bee, Friend, Limitless, Omi, NotePin от Plaud и Rabbit R1, каждый со своими уникальными функциями записи, анализа и взаимодействия. Эти девайсы варьируются по цене от 49,99 до 199 долларов и часто требуют подписки для полного доступа к возможностям.
Мэттью Макконахи использует ИИ от ElevenLabs для перевода своего подкаста на испанский с сохранением оригинального голоса. Как инвестор компании, он активно участвует в развитии технологий, аналогично Майклу Кейну, лицензирующему свой голос. Это открывает новые возможности для создателей, но вызывает опасения по поводу злоупотреблений аудио ИИ.
Голосовая клавиатура Willow расширяет возможности диктовки на iOS, позволяя вводить и редактировать текст во всех приложениях. Приложение поддерживает более 100 языков, персонализацию стилей и полную клавиатуру для правок, отличаясь от конкурентов вроде Wispr Flow. Стартап, основанный выходцами из Стэнфорда, привлек 4,5 миллиона долларов и планирует расширение на другие платформы.
Синтетические голоса ИИ переходят в стадию массового применения, становясь доступными для всех. Это открывает возможности для создателей контента, но вызывает этические вопросы о доверии и злоупотреблениях. Исследования подчеркивают растущий спрос и необходимость баланса между инновациями и безопасностью.
Гендиректор ElevenLabs Мати Станишевски прогнозирует, что модели ИИ для аудио со временем станут стандартным товаром, но в ближайшие годы они останутся ключевым преимуществом. Компания планирует фокусироваться на их разработке, мультимодальных подходах и партнерствах для создания ценности. Это заявление было сделано на конференции TechCrunch Disrupt 2025.
Платформа Mappa использует ИИ для анализа голоса кандидатов, выявляя ключевые поведенческие черты и помогая компаниям находить подходящих сотрудников. Стартап, основанный в 2023 году, привлек 3,4 миллиона долларов инвестиций и достиг значительных показателей в снижении текучести кадров. В будущем Mappa планирует расширить применение своей технологии за пределы найма, включая инвестиции и кредитование.
Платформа AIAllure позволяет создавать персонализированных виртуальных компаньонов с акцентом на NSFW-взаимодействия. Бесплатный план предлагает базовые функции, в то время как PRO-версия расширяет возможности до голосового общения и генерации контента. Пользователи отмечают высокую реалистичность и удобство настройки.
Stickerbox — это голосовой принтер стикеров на базе ИИ от Hapiko, который помогает детям воплощать фантазии в реальные изображения для раскрашивания. Устройство безопасно, просто в использовании и балансирует технологии с творчеством. Основатели фокусируются на детском контенте, с обновлениями и инвестициями в 7 миллионов долларов.
Компания Wispr, разработчик голосового ИИ-приложения Wispr Flow, привлекла дополнительные 25 миллионов долларов от Notable Capital после раунда на 30 миллионов в июне. Продукт показывает впечатляющий рост: 40% ежемесячно, охват 270 компаний Fortune 500 и 70% удержание пользователей. Wispr планирует расширение на Android, разработку собственных моделей ASR и автоматизацию задач.
Bitmovin запустила Agentic AI Hub, которая революционизирует взаимодействие с телевизором через естественный язык и голосовые команды. Платформа автоматизирует создание коротких видео-выдержек, обнаружение сцен и summarization, сокращая время редактирования с дней до минут. Agentic AI позволяет автономным системам принимать решения, открывая новые возможности для оптимизации контент-воркфлоу и изменения отношений между человеком и машиной.
ElevenLabs заключила партнерства с Майклом Кейном и Мэттью Макконахи для создания ИИ-версий их голосов. Компания запускает маркетплейс для брендов с авторизованными голосами знаменитостей, включая Лизу Миннелли и Майю Анджелоу. Это развитие отражает растущий интерес Голливуда к технологиям ИИ после периода напряженности.
Adobe разрабатывает Corrective AI — инструмент для постредактирования эмоций в голосовых записях, интегрированный в экосистему Firefly. Это позволяет легко менять тональность без перезаписи, но вызывает этические вопросы о творческом контроле и аутентичности. Технология обещает упростить работу для создателей контента, хотя и рискует утратить человеческие нюансы в исполнении.
В статье представлено сравнение пяти ведущих открытых моделей преобразования текста в речь, включая их технические характеристики и преимущества. Эти модели достигают высокого уровня реализма и выразительности, приближаясь к проприетарным аналогам. Выбор зависит от нужд в многоязычности, скорости и функциональности.
Приложение для силовых тренировок Ladder интегрирует новую платформу Ladder Nutrition для удобного отслеживания калорий и макронутриентов с использованием ИИ. Пользователи могут фиксировать еду через фото, скан, текст или голос, а система обеспечивает точность даже для международных блюд благодаря партнерствам. Функция дополнена геймификацией и доступна всем подписчикам, что соответствует запросам аудитории.
В Индии AI-стартапы, такие как Equal AI и SpiderX AI, разрабатывают системы для борьбы со спам-звонками и мошенничеством с использованием дипфейков. Эти технологии анализируют разговоры в реальном времени и помогают пользователям избегать обмана. Однако растущие угрозы от ИИ-мошенников требуют постоянного развития защитных механизмов.