Новости и статьи об искусственном интеллекте и нейросетях. Мы собираем и обрабатываем самую актуальную информацию из мира AI. О проекте

Новости

ИИ-модели без единого 'я': это не ошибка

Исследователь Anthropic Джош Бэтсон объясняет, почему языковые модели вроде Claude не имеют единого 'я': они используют разные внутренние механизмы для разных фактов, без центральной координации. Это приводит к противоречиям в ответах, но приписывать моделям человеческую coherentность — фундаментальная ошибка. Аналогия с книгой помогает понять природу ИИ.

13 января 2026 г.
1 мин
25

Исследователь Anthropic уверен: требовать от языковых моделей внутренней согласованности — неверный подход.

Представьте книгу, где на пятой странице лучшей едой называют пиццу, а на семнадцатой — пасту. Что книга думает на самом деле? Ответ прост: это всего лишь книга. Так объясняет Джош Бэтсон, научный сотрудник Anthropic, в публикации MIT Technology Review.

Такая аналогия возникла из экспериментов по изучению внутренней обработки фактов в ИИ-моделях. Команда Anthropic обнаружила, что Claude задействует разные механизмы, чтобы просто знать о желтом цвете бананов и чтобы подтвердить истинность фразы "Bananas are yellow". Эти механизмы никак не связаны друг с другом. Когда модель выдает противоречивые ответы, она берет информацию из разных своих частей — и нет никакого центрального 'начальника', который бы все координировал. "Представьте, что вы общаетесь с Claude, а потом он как будто уплывает, — описывает Бэтсон. — И вот уже вы беседуете не с ним, а с кем-то другим".

Ключевой вывод: считать, будто языковые модели обладают ментальной целостностью, как человеческий разум, — это ошибка в самом подходе к пониманию их работы.