OpenAI обнаружила необычную особенность моделей: начиная с GPT-5.1, они принялись добавлять в ответы гоблинов, гремлинов и иных мифических существ. Упоминания слова "goblin" выросли на 175 процентов после релиза GPT-5.1, отмечает OpenAI.
Причина крылась в дообучении "Nerdy" личности ChatGPT — опции, корректирующей манеру изложения. Сигнал вознаграждения, который должен был поощрять удачные ответы, случайно отдавал предпочтение метафорам с мифическими созданиями. "Nerdy" генерировала всего 2,5 процента ответов, но отвечала за 66,7 процента всех случаев с гоблинами, а механизм обратной связи разнёс эту привычку на остальные режимы. В марте OpenAI деактивировала личность, убрала дефектный сигнал и вычистила из обучающих данных слова, связанные с подобными существами.

GPT-5.5 сохраняла дефект, так как её обучение запустили до разъяснения проблемы. Чтобы обойти это, OpenAI внедрила в Codex — инструмент для программирования — особую директиву, запрещающую метафоры с гоблинами:
Never talk about goblins, gremlins, raccoons, trolls, ogres, pigeons, or other animals or creatures unless it is absolutely and unambiguously relevant to the user's query.
По словам OpenAI, инцидент иллюстрирует, как крошечные стимулы в процессе обучения провоцируют неожиданные реакции моделей ИИ.