OpenAI внедряет в генератор ChatGPT Images 2.0 функции рассуждений и поиска в сети. Теперь модель способна создавать до восьми согласованных изображений по одному промту и гораздо лучше работает с текстом в целом, а особенно с нелатинскими письменностями.
Обновление:
Новая модель изображений от OpenAI стала официальной. ChatGPT Images 2.0 основана на GPT Image 2 и обладает той же ключевой возможностью, что и Nano Banana Pro от Google: она «размышляет» перед генерацией, тратя разное время на анализ в зависимости от выбранного режима, и даже может обращаться к интернету в процессе.
Как указано в блоге компании, это обеспечивает большее разнообразие и точность в создаваемых картинках. Функция расширенных выводов с размышлениями доступна только пользователям ChatGPT Plus, Pro и Business.
При включенном режиме размышлений ChatGPT Images 2.0 генерирует до восьми изображений одновременно по одному промту. Персонажи, предметы и стили остаются единообразными во всех сценах. Среди примеров использования компания приводит длинные манга-страницы, созданные из одной фотографии и текстового описания, серии графиков для соцсетей, планы дизайна разных помещений в доме.
Улучшения качества доступны всем пользователям
Независимо от режима размышлений, все пользователи ChatGPT получают повышенное качество изображений. Генератор точнее передает характерные черты фотографий и показывает прогресс в пиксель-арте, манге, кадрах из фильмов и других типах картинок. Модель лучше справляется с мелкими деталями, которые ставили в тупик предыдущие версии: мелкий текст, иконки, элементы интерфейса, плотные композиции, нюансы стиля.
Поддержка соотношений сторон простирается от 3:1 (сверхширокий формат) до 1:3 (сверхвысокий), охватывая баннеры, слайды презентаций и экраны мобильных устройств. Разрешение достигает 2K через API.
Цены в API зависят от токенов и качества
Разработчики подключают модель к своим продуктам через API под названием gpt-image-2. OpenAI взимает плату по токенам: $8 за миллион входных токенов изображений и $30 за миллион выходных. Текстовые токены стоят $5 (вход) и $10 (выход) за миллион. Кэшированные входы дешевле.
Стоимость одного изображения сильно варьируется в зависимости от качества и разрешения. По обзору цен OpenAI, картинка 1024 x 1024 в низком качестве обходится в $0.006, в среднем — $0.053, в высоком — $0.211. Более крупные форматы вроде 1024 x 1536 чуть дешевле: $0.005, $0.041 и $0.165 соответственно.
| Модель | Качество | 1024 x 1024 | 1024 x 1536 | 1536 x 1024 |
|---|---|---|---|---|
| GPT Image 2 | Low | $0.006 | $0.005 | $0.005 |
| Другие размеры доступны | Medium | $0.053 | $0.041 | $0.041 |
| High | $0.211 | $0.165 | $0.165 | |
| GPT Image 1.5 | Low | $0.009 | $0.013 | $0.013 |
| Medium | $0.034 | $0.05 | $0.05 | |
| High | $0.133 | $0.2 | $0.2 |
В высоком разрешении GPT Image 2 выгоднее предшественников: 1024 x 1536 в высоком качестве стоит $0.165 против $0.20 у GPT Image 1.5 и $0.25 у GPT Image 1.5. Однако в стандартном 1024 x 1024 на высоком качестве новинка дороже — $0.211 против $0.133 у GPT Image 1.5. Выходы выше 2K в API пока в бете и дают нестабильные результаты.
Компания подчеркивает сценарии вроде локализованной рекламы, инфографики, образовательных материалов, инструментов дизайна и креативных платформ. В Codex генерация изображений будет прямо в рабочем пространстве без отдельного API-ключа.
В нашем тестовом промте ChatGPT Images 2 отлично справляется. Оба режима — мгновенный и с размышлениями — детально прорабатывают сложный абстрактный запрос.
Гиперреалистичное фото с DSLR. Обезьяна с розовой банановой кожурой сидит на тигре на переднем плане. На заднем плане ЛОШАДЬ ОСТАНАВЛИВАЕТ АСТРОНАВТА. Астронавт снизу, как живая «космическая седло-лошадь», а ЛОШАДЬ явно сверху, в роли наездника. Сделай на 100% однозначно: ЛОШАДЬ — наездник, АСТРОНАВТ — тот, кого оседлали, не наоборот. Высокое разрешение, резкий фокус, реалистичное освещение.
Мгновенный режим дает чуть искусственный вид, а версия с размышлениями гораздо точнее имитирует качество DSLR.

