Новости и статьи об искусственном интеллекте и нейросетях. Мы собираем и обрабатываем самую актуальную информацию из мира AI. О проекте

Новости

Сотрудники OpenAI намекают на новую омни-модель

Сотрудники OpenAI своими постами в X вызвали обсуждения новой омни-модели как преемницы GPT-4o. Исследователь Brandon McKinzie поддержал идею улучшений. Компания параллельно создает аудио BiDi для естественных прерываемых диалогов с прототипом, который пока нестабилен.

9 марта 2026 г.
1 мин
30

OpenAI, судя по всему, создает свежую мультимодальную модель, которая способна заменить GPT-4o.

Свежее общение сотрудников в соцсетях разжигает подобные разговоры. Atty Eleti из команды Voice поделился восторгом по поводу грядущих новинок и поинтересовался у аудитории, какие возможности они хотели бы видеть в обновленной омни-модели. Brandon McKinzie, исследователь OpenAI с опытом мультимодальных разработок из Apple, отреагировал, что такая омни-модель — отличная задумка.

Под омни или мультимодальной моделью подразумевается система, которая одинаково уверенно работает с текстом, изображениями, звуком и видео, не требуя отдельных решений для разных форматов. GPT-4o («омни») впервые у OpenAI объединила обработку текста, изображений и аудио в единую архитектуру. Актуальная модель GPT-5.4 уже владеет функцией «computer use» — она способна взаимодействовать с интерфейсами, созданными под человека.

Как сообщает The Information, OpenAI ведет работы над аудио-моделью «BiDi» (двунаправленной), чтобы диалоги казались живыми. Современные аудио-решения действуют по принципу чередования ходов: модель выжидает окончания речи пользователя, прежде чем заговорить. BiDi реагирует на прерывания прямо в процессе разговора. Прототип функционирует, однако теряет стабильность через пару минут общения. Премьера возможна не раньше второго квартала.