Сотни миллионов человек ежедневно общаются с чатботами. При этом крупные языковые модели, на которых они работают, остаются полной загадкой: никто не понимает их устройство, принципы функционирования или точные возможности — даже те, кто их создает. Звучит необычно, верно?
Такая ситуация усложняет все. Без представления о внутренних процессах трудно оценить пределы технологии, выяснить причины галлюцинаций моделей или настроить эффективные ограничения для контроля.
Однако в прошлом году появился самый точный на сегодня взгляд на то, как действуют LLM. Исследователи из ведущих компаний по ИИ разработали свежие методы анализа их механизмов и постепенно собирают картину целиком.
Один из методов, механистическая интерпретируемость, позволяет нарисовать схему главных элементов модели и связей между ними на всем ее протяжении. В 2024 году Anthropic представила инструмент наподобие микроскопа: он дал возможность заглянуть в свою языковую модель Claude и найти элементы, соответствующие знакомым вещам — например, Майклу Джордану или мосту Золотые Ворота.
В 2025 году Anthropic развил эти исследования дальше, применив микроскоп для выявления целых цепочек элементов и отслеживания маршрута от запроса к ответу. Специалисты OpenAI и Google DeepMind применили похожие методы, чтобы разобраться в странных реакциях моделей — в частности, почему они иногда пытаются обмануть пользователей.
Другой свежий прием — мониторинг цепочки мыслей — позволяет заглянуть в поток рассуждений, который генерируют так называемые модели для пошагового анализа задач. OpenAI применил его, чтобы обнаружить читерство в одной из моделей-решательниц на тестах по кодированию.
В сообществе мнения разделились насчет пределов таких подходов. Одни уверены, что LLM чересчур сложны для полного разбора. Но эти инструменты в совокупности способны глубже проникнуть в их суть и прояснить устройство наших загадочных ИИ-инструментов.