ChatGPT начал вставлять гоблинов после GPT-5.1

OpenAI разобралась, почему с GPT-5.1 модели ChatGPT стали часто вставлять гоблинов в ответы: сбой в поощрении при дообучении 'Nerdy' личности вызвал 175-процентный рост упоминаний. Привычка распространилась на другие режимы через обратную связь, компания устранила дефект и добавила запреты. Случай подчёркивает риски непредвиденных эффектов от мелких изменений в обучении.

OpenAI обнаружила необычную особенность моделей: начиная с GPT-5.1, они принялись добавлять в ответы гоблинов, гремлинов и иных мифических существ. Упоминания слова "goblin" выросли на 175 процентов после релиза GPT-5.1, отмечает OpenAI.

Причина крылась в дообучении "Nerdy" личности ChatGPT — опции, корректирующей манеру изложения. Сигнал вознаграждения, который должен был поощрять удачные ответы, случайно отдавал предпочтение метафорам с мифическими созданиями. "Nerdy" генерировала всего 2,5 процента ответов, но отвечала за 66,7 процента всех случаев с гоблинами, а механизм обратной связи разнёс эту привычку на остальные режимы. В марте OpenAI деактивировала личность, убрала дефектный сигнал и вычистила из обучающих данных слова, связанные с подобными существами.

ASCII-арт единорога от GPT-5.5, сильно напоминающий гоблина — Ведущий исследователь OpenAI Jakub Pachocki попросил GPT-5.5 создать единорога в формате ASCII-арта и получил нечто гораздо больше похожее на гоблина. | Изображение: OpenAI

GPT-5.5 сохраняла дефект, так как её обучение запустили до разъяснения проблемы. Чтобы обойти это, OpenAI внедрила в Codex — инструмент для программирования — особую директиву, запрещающую метафоры с гоблинами:

Never talk about goblins, gremlins, raccoons, trolls, ogres, pigeons, or other animals or creatures unless it is absolutely and unambiguously relevant to the user's query.

По словам OpenAI, инцидент иллюстрирует, как крошечные стимулы в процессе обучения провоцируют неожиданные реакции моделей ИИ.

ChatGPT увлёкся гоблинами: это раскрывает риски ИИ-обучения

Горячее

Тревожный сигнал: реальная цена ИИ от Google и Amazon

Alibaba запрещает сотрудникам использовать Claude Code

Последний экзамен человечества — отвлекающий манёвр?

Gemini Spark от Google теперь доступен на Mac

Anthropic представила Claude Science — ИИ-помощника для учёных

Сейчас в тренде