Исследователь Anthropic уверен: требовать от языковых моделей внутренней согласованности — неверный подход.
Представьте книгу, где на пятой странице лучшей едой называют пиццу, а на семнадцатой — пасту. Что книга думает на самом деле? Ответ прост: это всего лишь книга. Так объясняет Джош Бэтсон, научный сотрудник Anthropic, в публикации MIT Technology Review.
Такая аналогия возникла из экспериментов по изучению внутренней обработки фактов в ИИ-моделях. Команда Anthropic обнаружила, что Claude задействует разные механизмы, чтобы просто знать о желтом цвете бананов и чтобы подтвердить истинность фразы "Bananas are yellow". Эти механизмы никак не связаны друг с другом. Когда модель выдает противоречивые ответы, она берет информацию из разных своих частей — и нет никакого центрального 'начальника', который бы все координировал. "Представьте, что вы общаетесь с Claude, а потом он как будто уплывает, — описывает Бэтсон. — И вот уже вы беседуете не с ним, а с кем-то другим".
Ключевой вывод: считать, будто языковые модели обладают ментальной целостностью, как человеческий разум, — это ошибка в самом подходе к пониманию их работы.