Проблемы понимания решений больших языковых моделей
Одна из главных трудностей с глубокими моделями — разобраться, почему они выдают именно такие результаты. Будь то попытки xAI скорректировать политические взгляды Grok, склонность ChatGPT к лести или обычные галлюцинации, копаться в сети из миллиардов параметров — дело непростое.
Стартап Guide Labs из Сан-Франциско, который возглавляют генеральный директор Джулиус Адебайо и главный научный сотрудник Ая Абдесалам Исмаил, предлагает решение. Компания выложила в открытый доступ большую языковую модель с 8 миллиардами параметров — Steerling-8B. Её архитектура позволяет отследить каждый генерируемый токен до исходных данных из обучения.
Это помогает как проверять источники фактов, так и разбираться в более тонких вещах — например, как модель воспринимает юмор или гендерные аспекты.
«Если гендер закодирован в миллиарде из триллиона возможных способов, нужно найти все эти миллиарды и уметь их надёжно включать или выключать», — объясняет Адебайо в беседе с TechCrunch. «С нынешними моделями это возможно, но крайне нестабильно. Это одна из ключевых задач».
Адебайо занялся этим во время докторской в MIT, где стал соавтором влиятельной статьи 2020 года. Она доказала, что стандартные методы анализа глубоких моделей ненадёжны. Эти исследования привели к новому подходу: разработчики добавляют слой понятий, который группирует данные в отслеживаемые категории. Требует больше разметки на старте, но с помощью других ИИ-моделей удалось обучить самую крупную демонстрацию.
«Обычно интерпретируемость — это как нейронаука на модели, а мы поступаем иначе», — говорит Адебайо. «Мы конструируем модель с нуля, чтобы не пришлось копаться в мозгах».

Есть опасение, что такой метод уберёт неожиданные способности моделей — умение обобщать на новые темы. Но в Steerling-8B это сохраняется: команда фиксирует «открытые понятия», которые модель сама находит, вроде квантовых вычислений.
Где пригодится прозрачная архитектура
Адебайо уверен: всем потребуются такие интерпретируемые модели. Для потребительских LLM это позволит блокировать использование защищённых авторским правом материалов или строже контролировать ответы на чувствительные темы — насилие, наркотики. В регулируемых отраслях вроде финансов модели для оценки кредитов должны учитывать финансы, но игнорировать расу. В науке тоже нужна прозрачность: свёртывание белков удалось благодаря ИИ, но учёным важно понимать, почему модель выбрала те или иные комбинации.
«Эта модель показывает: создание интерпретируемых систем — уже не чистая наука, а инженерная задача», — подчёркивает Адебайо. «Мы решили научную часть, теперь масштабируем. Нет причин, почему такие модели не догонят фронтирные с их огромными параметрами».
Guide Labs сообщает: Steerling-8B достигает 90% возможностей существующих аналогов, но требует меньше данных для обучения благодаря свежей архитектуре. Компания вышла из Y Combinator и в ноябре 2024 года привлекла 9 миллионов долларов на посевном раунде от Initialized Capital. Далее — более крупная модель плюс API и доступ к агентам для пользователей.
«Способы обучения моделей сейчас примитивны, а встроенная интерпретируемость пойдёт на пользу человечеству в долгосрочной перспективе», — заключает Адебайо. «Сверхумными системами, которые решают за нас, должно быть понятно, как они работают».