OpenAI, судя по всему, создает свежую мультимодальную модель, которая способна заменить GPT-4o.
Свежее общение сотрудников в соцсетях разжигает подобные разговоры. Atty Eleti из команды Voice поделился восторгом по поводу грядущих новинок и поинтересовался у аудитории, какие возможности они хотели бы видеть в обновленной омни-модели. Brandon McKinzie, исследователь OpenAI с опытом мультимодальных разработок из Apple, отреагировал, что такая омни-модель — отличная задумка.
Под омни или мультимодальной моделью подразумевается система, которая одинаково уверенно работает с текстом, изображениями, звуком и видео, не требуя отдельных решений для разных форматов. GPT-4o («омни») впервые у OpenAI объединила обработку текста, изображений и аудио в единую архитектуру. Актуальная модель GPT-5.4 уже владеет функцией «computer use» — она способна взаимодействовать с интерфейсами, созданными под человека.
Как сообщает The Information, OpenAI ведет работы над аудио-моделью «BiDi» (двунаправленной), чтобы диалоги казались живыми. Современные аудио-решения действуют по принципу чередования ходов: модель выжидает окончания речи пользователя, прежде чем заговорить. BiDi реагирует на прерывания прямо в процессе разговора. Прототип функционирует, однако теряет стабильность через пару минут общения. Премьера возможна не раньше второго квартала.