Чалмерс: интерпретируемость ИИ упускает установки

Философ Дэвид Чалмерс объясняет, почему механистическая интерпретируемость ИИ недостаточна и предлагает сосредоточиться на пропозициональных установках вроде верований и желаний. Логирование мыслей позволит фиксировать цели, оценки и обоснования систем. Существующие методы дают фрагменты, но для полной картины нужны новые подходы с психосемантической основой.

Механистическая интерпретируемость недостаточна сама по себе

В исследованиях ИИ часто путают интерпретируемость с объяснимостью. Объяснимость помогает конечным пользователям понять логику решений. Интерпретируемость же служит исследователям инструментом для разбора внутренних механизмов работы системы. Дэвид Чалмерс разделяет поведенческий анализ, который смотрит на входы и выходы, и механистический, фокусирующийся на внутренних процессах.

В рамках механистической интерпретируемости он выделяет алгоритмический анализ — поиск структур обработки, таких как цепочки внимания, — и репрезентативный анализ: выяснение, как именно и что система представляет внутри себя. Репрезентативный анализ делится на концептуальную интерпретируемость, связанную с понятиями вроде «кошка» или «мост», и пропозициональную, касающуюся установок к предложениям, например «мост красный» или «я хочу победить».

Пропозициональные установки изменят подход к объяснению и прогнозированию ИИ

В психологии людей пропозициональные установки лежат в основе понимания поведения. Действия определяются верованиями и желаниями. Чалмерс считает, что то же самое все больше относится к ИИ-системам. У них есть модели мира (верования), целевые состояния (желания), вероятности (убеждения) и намерения, пусть такие термины и кажутся антропоморфными для машин.

Чтобы понять, содержит ли языковая модель вроде GPT скрытый расистский уклон или просто повторяет его, недостаточно знать, что активируются понятия вроде «чернокожие». Ключ — в установке системы к ним. Считает ли она, что эта группа часто лишается кредитов, или стремится к такому исходу?

Логирование мыслей ставит серьезную методологическую задачу

Чалмерс называет «логирование мыслей» главной целью: способ фиксации релевантных пропозициональных установок ИИ-системы во времени. Пример упрощенной записи в логе может выглядеть так:

Цель: Я выигрываю эту партию в шахматы.
Оценка (вероятность 0.8): Если я сделаю ход Qf8, то выиграю.
Цель: Я хожу Qf8.
Действие: Я хожу Qf8.

Такие логи покажут цели, верования и оценки, которые система держит в данный момент. Их можно дополнить «логами обоснований» (причины установок) и «логами механизмов» (модули, вызывающие установку). Чалмерс признает: полные логи невозможны, поскольку установок может быть бесконечно. Но частичные — реальны, например, для активных («текущих») установок или особо важных.

От радикальной интерпретации к вычислительной интерпретации ИИ

Идею пропозициональной интерпретируемости Чалмерс ставит в философскую традицию «радикальной интерпретации», возникшую в 1970-х. Философ Дональд Дэвидсон ввел термин для описания, как выводить верования, желания и значения незнакомого субъекта — скажем, говорящего на неизвестном языке — только по наблюдаемому поведению и высказываниям. Интерпретатор не имеет предпосылок о языке или мыслях субъекта. Метод строго ограничен: значения и установки реконструируются исключительно из внешних паттернов.

Философ Дэвид Льюис предложил менее жесткую альтернативу. В его мысленном эксперименте интерпретатор имеет полный доступ ко всем физическим фактам о человеке: состояниям мозга, нейронной активности, взаимодействию с окружением и поведению. Задача — вывести верования и желания на этом основании. Льюис формулировал вызов так: «Представьте, что мы взялись узнать Карла как личность. Нам интересно, во что он верит, чего желает, что значит для него, и все остальное, объяснимое через это». Зная все физические факты о Карле, нужно «решить уравнение» для остального — его верований, желаний и значений. Подход Льюиса шире, позволяет прямую реконструкцию ментальных состояний не через поведение, а через физическую природу системы.

С современными ИИ-системами вопрос, как выводить ментальное содержание из внутренних состояний, обретает особую остроту. Чалмерс развивает идею Льюиса, заменяя биологический субстрат на алгоритмические структуры. Вместо нейронной активности анализируются свойства ИИ: архитектура сети, веса, активации и поведение на входах-выходах. Это он называет «вычислительной интерпретацией»: вместо физических фактов изучаются вычислительные для вывода пропозициональных установок.

Это порождает фундаментальный вопрос: что значит для конкретного внутреннего состояния ИИ «иметь значение», выражать утверждение о мире или цель? Чалмерс обращается к психосемантике — философской области о условиях, при которых ментальные или внутренние состояния несут значение.

Что психосемантика говорит о значении в ИИ-системах

Психосемантика, разработанная философами вроде Джерри Фодора, похожа на лингвистическую семантику. Она спрашивает: с одной стороны, в чем содержание ментального состояния (семантический вопрос), с другой — почему именно это содержание (метасемантический). Для ИИ: если паттерн активации в языковой модели выражает «кошка сидела на коврике», то что придает это значение? Корреляция с входами? Или функциональная роль паттерна в системе?

Два ключевых принципа: информационный и принцип использования. Информационный гласит, что состояние представляет что-то, если надежно коррелирует с состоянием мира. Нейрон, срабатывающий на горизонтальные линии, может представлять «горизонталь». Принцип использования определяет представления функционально: состояние значит «кошка», если вызывает использование слова «кошка» или реакции на кошек.

Чалмерс считает реалистичным создание хотя бы частичных психосемантических теорий, например, для верований или вероятностей в конкретных ИИ-моделях. Логирование мыслей — не только применение таких теорий, но и инструмент для их развития. Поскольку ИИ-системы полностью доступны, в отличие от человеческих мозгов, они позволят эмпирически проверять психосемантические гипотезы или создавать новые категории машинных установок.

Существующие методы дают фрагменты, но не полную картину

Если ИИ-системы имеют пропозициональные установки вроде верований, желаний или вероятностей — или их функциональные аналоги, — то как их выявить на практике? Чалмерс полагает, что психосемантические принципы вроде информации и использования дают основу, но не конкретные техники для визуализации установок в реальных системах.

Он смотрит, как расширить методы механистической интерпретируемости на пропозициональную, разбирая их технику, типы захватываемых установок, степень открытости и соответствие психосемантике.

Отслеживание причинно-следственных связей

Метод манипулирует частями сети, чтобы найти, где хранится информация вроде «Эйфелева башня в Париже». Он показывает, что промежуточные слои критичны для вывода «Париж». Возможна правка модели, например, замена на «Эйфелева башня в Риме». Но подход хрупкий, зависит от промта, работает на отдельных случаях и фокусируется на установках вроде верований.

Зондирование с классификаторами

Здесь обучают линейные классификаторы выводить предложения из активаций, например «черная фигура на e4». Новые методы связывают концепты вроде «Грег» и «Италия» в LivesIn(Грег, Италия). Генерализация сложна, ограничено установками вроде верований.

Разреженные автоэнкодеры

В исследовании 2024 года ученые разобрали Claude 3 Sonnet с помощью разреженных автоэнкодеров. Автоэнкодер нашел свыше 34 миллионов признаков, многие интерпретируемы — «Золотые ворота», «Руанда», «подхалимство». По Чалмерсу, это база для логирования концептов, но редко полные пропозициональные установки. Полезность для логирования мыслей зависит от комбинирования концептов в предложения.

Цепочка мыслей

Модели вроде системы o1 от OpenAI «думают вслух», явно описывая шаги. Это дает взгляд внутрь, но ненадежно. Исследования показывают, что такие модели часто выдают ложные обоснования рассуждений. Цепочка мыслей применима только к системам, использующим ее внутри.

Ни один метод не дает нужного для логирования мыслей

Несмотря на различия, все четыре метода схожи: дают ограниченный взгляд на конкретные установки — фактические верования, модели мира или простые цели. Ни один не удовлетворяет требованиям логирования мыслей по Чалмерсу: систематической непрерывной записи релевантных установок во времени.

По психосемантическим принципам они тоже слабы: отслеживание причинно-следственных связей полагается почти целиком на функциональную роль в поведении (использование), зондирование — на корреляциях с миром (информация). Разреженные автоэнкодеры находят концепты, но не говорят об их использовании. Цепочка мыслей дает явные заявления, но ненадежные и трудно связанные с внутренними процессами.

Пропозициональная интерпретируемость — долгосрочный проект. Проанализированные методы — ранний прогресс, но полное решение потребует новых подходов, сочетающих практичность с психосемантической основой. Только так удастся реконструировать рассуждения сложных ИИ-систем и сделать их интерпретируемыми во времени.

Философские и этические последствия

Чалмерс разбирает ключевые возражения. Часто утверждают: только сознательные существа с «разумом» имеют установки вроде верований, желаний или намерений. ИИ — просто вычислители без подлинной внутренней жизни, без «ментальных состояний» в философском смысле.

Чалмерс возражает: для многих задач интерпретации ИИ сознательность, самосознание или «я» не нужны. Достаточно функциональных аналогов — состояний, ведущих себя как верования или желания, даже без сознательного переживания. Пример — термостат: без сознания он преследует цель (температуру) и держит модель текущей. В этом смысле он «верит», что холодно или жарко, и «хочет» достичь нормы.

Чалмерс называет такие функциональные, нементальные состояния «обобщенными пропозициональными установками». Они выполняют похожие роли — направляют поведение, обрабатывают информацию, — без привязки к сознанию.

В то же время Чалмерс предупреждает об этике: если ИИ обретет сознание, логирование мыслей нарушит приватность. Пока спекуляция, но будущие системы могут иметь моральный статус. Тогда логирование придется взвешивать с этическими нормами.

Программа исследований на десятилетия вперед

Чалмерс видит пропозициональную интерпретируемость как долгосрочный междисциплинарный проект — с многими вопросами, но большим потенциалом. Она поможет не только безопасности и контролю ИИ, но и даст свежие идеи для когнитивной психологии и философии.

Неясно, как реализовать логирование мыслей на практике. Но даже частичные успехи улучшат понимание ИИ-систем и позволят рано ловить опасные поведения. Рациональное постижение машин, по Чалмерсу, требует большего, чем анализ кода: систематической реконструкции внутренних установок и их отслеживания во времени.

Дэвид Чалмерс: интерпретируемость ИИ упускает главное