ChatGPT Images 2.0 думает перед генерацией изображений

OpenAI выпустила ChatGPT Images 2.0 на базе GPT Image 2 с функцией размышлений перед генерацией и поиском в сети, что повышает точность и разнообразие изображений. Модель создает до восьми согласованных картинок по одному промту, лучше работает с текстом и мелкими деталями. API gpt-image-2 предлагает токеновое ценообразование с ценами от $0.005 за изображение.

OpenAI внедряет в генератор ChatGPT Images 2.0 функции рассуждений и поиска в сети. Теперь модель способна создавать до восьми согласованных изображений по одному промту и гораздо лучше работает с текстом в целом, а особенно с нелатинскими письменностями.

Обновление:

Новая модель изображений от OpenAI стала официальной. ChatGPT Images 2.0 основана на GPT Image 2 и обладает той же ключевой возможностью, что и Nano Banana Pro от Google: она «размышляет» перед генерацией, тратя разное время на анализ в зависимости от выбранного режима, и даже может обращаться к интернету в процессе.

Как указано в блоге компании, это обеспечивает большее разнообразие и точность в создаваемых картинках. Функция расширенных выводов с размышлениями доступна только пользователям ChatGPT Plus, Pro и Business.

При включенном режиме размышлений ChatGPT Images 2.0 генерирует до восьми изображений одновременно по одному промту. Персонажи, предметы и стили остаются единообразными во всех сценах. Среди примеров использования компания приводит длинные манга-страницы, созданные из одной фотографии и текстового описания, серии графиков для соцсетей, планы дизайна разных помещений в доме.

Улучшения качества доступны всем пользователям

Независимо от режима размышлений, все пользователи ChatGPT получают повышенное качество изображений. Генератор точнее передает характерные черты фотографий и показывает прогресс в пиксель-арте, манге, кадрах из фильмов и других типах картинок. Модель лучше справляется с мелкими деталями, которые ставили в тупик предыдущие версии: мелкий текст, иконки, элементы интерфейса, плотные композиции, нюансы стиля.

Поддержка соотношений сторон простирается от 3:1 (сверхширокий формат) до 1:3 (сверхвысокий), охватывая баннеры, слайды презентаций и экраны мобильных устройств. Разрешение достигает 2K через API.

Цены в API зависят от токенов и качества

Разработчики подключают модель к своим продуктам через API под названием gpt-image-2. OpenAI взимает плату по токенам: $8 за миллион входных токенов изображений и $30 за миллион выходных. Текстовые токены стоят $5 (вход) и $10 (выход) за миллион. Кэшированные входы дешевле.

Стоимость одного изображения сильно варьируется в зависимости от качества и разрешения. По обзору цен OpenAI, картинка 1024 x 1024 в низком качестве обходится в $0.006, в среднем — $0.053, в высоком — $0.211. Более крупные форматы вроде 1024 x 1536 чуть дешевле: $0.005, $0.041 и $0.165 соответственно.

Модель	Качество	1024 x 1024	1024 x 1536	1536 x 1024
GPT Image 2	Low	$0.006	$0.005	$0.005
Другие размеры доступны	Medium	$0.053	$0.041	$0.041
	High	$0.211	$0.165	$0.165
GPT Image 1.5	Low	$0.009	$0.013	$0.013
	Medium	$0.034	$0.05	$0.05
	High	$0.133	$0.2	$0.2

В высоком разрешении GPT Image 2 выгоднее предшественников: 1024 x 1536 в высоком качестве стоит $0.165 против $0.20 у GPT Image 1.5 и $0.25 у GPT Image 1.5. Однако в стандартном 1024 x 1024 на высоком качестве новинка дороже — $0.211 против $0.133 у GPT Image 1.5. Выходы выше 2K в API пока в бете и дают нестабильные результаты.

Компания подчеркивает сценарии вроде локализованной рекламы, инфографики, образовательных материалов, инструментов дизайна и креативных платформ. В Codex генерация изображений будет прямо в рабочем пространстве без отдельного API-ключа.

В нашем тестовом промте ChatGPT Images 2 отлично справляется. Оба режима — мгновенный и с размышлениями — детально прорабатывают сложный абстрактный запрос.

Гиперреалистичное фото с DSLR. Обезьяна с розовой банановой кожурой сидит на тигре на переднем плане. На заднем плане ЛОШАДЬ ОСТАНАВЛИВАЕТ АСТРОНАВТА. Астронавт снизу, как живая «космическая седло-лошадь», а ЛОШАДЬ явно сверху, в роли наездника. Сделай на 100% однозначно: ЛОШАДЬ — наездник, АСТРОНАВТ — тот, кого оседлали, не наоборот. Высокое разрешение, резкий фокус, реалистичное освещение.

Мгновенный режим дает чуть искусственный вид, а версия с размышлениями гораздо точнее имитирует качество DSLR.

Генерация изображения в стандартном режиме: лошадь оседлывает астронавта, обезьяна на тигре — Генерация изображения в стандартном режиме

Генерация изображения в режиме размышлений: лошадь оседлывает астронавта, обезьяна на тигре — Генерация изображения в режиме размышлений

ChatGPT Images 2.0 от OpenAI: мышление и поиск перед созданием изображений

Улучшения качества доступны всем пользователям

Цены в API зависят от токенов и качества

Горячее

Тревожный сигнал: реальная цена ИИ от Google и Amazon

Alibaba запрещает сотрудникам использовать Claude Code

Последний экзамен человечества — отвлекающий манёвр?

Gemini Spark от Google теперь доступен на Mac

Anthropic представила Claude Science — ИИ-помощника для учёных

Сейчас в тренде