Новости и статьи об искусственном интеллекте и нейросетях. Мы собираем и обрабатываем самую актуальную информацию из мира AI. О проекте

Статьи

Появление интроспективной осознанности в больших языковых моделях

Исследование показывает первые признаки интроспективной осознанности у больших языковых моделей (LLM), таких как Claude Opus 4.1. Модели иногда способны распознавать «внедренные» концепции внутри своих нейронных сетей — например, отличать искусственно добавленные «мысли» от реальных входных данных.

15 декабря 2025 г.
5 мин
5

Введение

Большие языковые модели (LLM) способны на многое: они могут генерировать связный текст, отвечать на вопросы человека на человеческом языке и анализировать текст из других источников. Но могут ли они анализировать и сообщать о своих внутренних состояниях — активациях в своих сложных компонентах и слоях — осмысленным образом? Иными словами, способны ли LLM к интроспекции?

Эта статья предоставляет обзор и резюме исследований по возникающей теме интроспекции LLM на их внутренние состояния, а также некоторые дополнительные выводы. В частности, рассматривается и анализируется исследовательская работа "Emergent Introspective Awareness in Large Language Models".

Основная концепция: интроспективная осознанность

Авторы исследования определяют понятие интроспективной осознанности модели на основе четырех критериев. Но сначала стоит понять, что такое "самоотчет LLM". Это собственное словесное описание модели о том, какие "внутренние рассуждения" (или, более технически, нейронные активации) она считает, что имела при генерации ответа. Это можно рассматривать как тонкое проявление интерпретируемости модели.

Теперь рассмотрим четыре определяющих критерия интроспективной осознанности LLM:

  1. Точность: Интроспективная осознанность предполагает, что самоотчет модели должен правильно отражать активации или манипуляции с ее внутренним состоянием.
  2. Обоснованность: Описание самоотчета должно каузально зависеть от внутреннего состояния, так что изменения в последнем приводят к обновлению первого.
  3. Внутренность: Внутренние активации должны использоваться LLM для самоотчета, а не ограничиваться выводом из сгенерированного текста.
  4. Метакогнитивное представление: Модель должна быть способна формулировать внутреннее представление высшего порядка, а не просто прямое отражение достигнутых состояний. Это особенно сложное свойство для демонстрации, и оно осталось за пределами исследования авторов.

Методология исследования и ключевые выводы

Авторы провели серию экспериментов на нескольких моделях семейства Claude (Opus, Sonnet, Haiku и др.), чтобы выяснить, способны ли LLM к интроспекции. Основной техникой методологии было "внедрение концепций", которое заключалось в манипуляции внутренними активациями модели и наблюдении за тем, как эти манипуляции влияют на ее ответы о своих ментальных состояниях.

Конкретно, векторы активаций или "концептуальные векторы", связанные с известными понятиями (например, "рис" или "рамен"), или абстрактными существительными (например, "мир" или "умами"), брались и внедрялись в поток остаточных сигналов LLM из одного слоя модели в другой. Затем модели отправлялся промт с просьбой сообщить о себе: была ли внедрена какая-то мысль или идея и если да, то какая именно. Эксперимент повторялся для каждой модели на разных уровнях возмущения и в разных слоях архитектуры.

Ключевые выводы:

  • Модели иногда (например, около 20% случаев для Opus 4.1) сообщали о "внедренных мыслях", правильно называя связанную концепцию. Это намекает на внутреннее распознавание мыслей.
  • Они также часто (выше случайного уровня) отличали мысли от входных данных — повторяли текстовый вход без ошибок и сообщали о внедренной внутренней мысли.
  • Если модель искусственно вынуждали вывести определенный токен как следующий в ответе и соответствующий концептуальный вектор был внедрен до "префилла", она чаще принимала этот вывод как намеренный. Это указывает на возможную способность интроспективно отслеживать свои предыдущие намерения.
  • Когда модель просили подумать или избегать мыслей о определенном слове при создании несвязанного вывода, выяснилось, что она может модулировать свое внутреннее представление информации в ответ на стимулы — что-то вроде "(не) думай об идее X и получишь награду". Однако это явление tended to decay by arriving at the final layer.

Заключительные мысли

Эта тема исследований чрезвычайно важна по нескольким причинам: во-первых, интроспекция LLM может быть ключом к лучшему пониманию не только интерпретируемости моделей, но и давних проблем — таких как галлюцинации или ненадежное рассуждение при решении критически важных задач.

Эксперименты были тщательно спланированы и хорошо выполнены; результаты достаточно очевидны и указывают на ранние признаки интроспективных способностей в промежуточных слоях моделей — хотя с разной степенью убедительности. Исследования ограничены моделями семейства Claude; было бы интересно увидеть больше разнообразия среди архитектур и семейств моделей. Однако понятно, что могут быть ограничения — такие как ограниченный доступ к внутренним активациям других типов моделей или практические трудности при исследовании проприетарных систем.

Горячее

Загружаем популярные статьи...

Интроспекция у ИИ: новые данные о самосознании нейросетей