Guide Labs открыла интерпретируемую LLM Steerling-8B

Проблемы понимания решений больших языковых моделей

Одна из главных трудностей с глубокими моделями — разобраться, почему они выдают именно такие результаты. Будь то попытки xAI скорректировать политические взгляды Grok, склонность ChatGPT к лести или обычные галлюцинации, копаться в сети из миллиардов параметров — дело непростое.

Стартап Guide Labs из Сан-Франциско, который возглавляют генеральный директор Джулиус Адебайо и главный научный сотрудник Ая Абдесалам Исмаил, предлагает решение. Компания выложила в открытый доступ большую языковую модель с 8 миллиардами параметров — Steerling-8B. Её архитектура позволяет отследить каждый генерируемый токен до исходных данных из обучения.

Это помогает как проверять источники фактов, так и разбираться в более тонких вещах — например, как модель воспринимает юмор или гендерные аспекты.

«Если гендер закодирован в миллиарде из триллиона возможных способов, нужно найти все эти миллиарды и уметь их надёжно включать или выключать», — объясняет Адебайо в беседе с TechCrunch. «С нынешними моделями это возможно, но крайне нестабильно. Это одна из ключевых задач».

Адебайо занялся этим во время докторской в MIT, где стал соавтором влиятельной статьи 2020 года. Она доказала, что стандартные методы анализа глубоких моделей ненадёжны. Эти исследования привели к новому подходу: разработчики добавляют слой понятий, который группирует данные в отслеживаемые категории. Требует больше разметки на старте, но с помощью других ИИ-моделей удалось обучить самую крупную демонстрацию.

«Обычно интерпретируемость — это как нейронаука на модели, а мы поступаем иначе», — говорит Адебайо. «Мы конструируем модель с нуля, чтобы не пришлось копаться в мозгах».

Схема архитектуры модели Steerling-8B от Guide Labs — Автор изображения: Guide Labs

Есть опасение, что такой метод уберёт неожиданные способности моделей — умение обобщать на новые темы. Но в Steerling-8B это сохраняется: команда фиксирует «открытые понятия», которые модель сама находит, вроде квантовых вычислений.

Где пригодится прозрачная архитектура

Адебайо уверен: всем потребуются такие интерпретируемые модели. Для потребительских LLM это позволит блокировать использование защищённых авторским правом материалов или строже контролировать ответы на чувствительные темы — насилие, наркотики. В регулируемых отраслях вроде финансов модели для оценки кредитов должны учитывать финансы, но игнорировать расу. В науке тоже нужна прозрачность: свёртывание белков удалось благодаря ИИ, но учёным важно понимать, почему модель выбрала те или иные комбинации.

«Эта модель показывает: создание интерпретируемых систем — уже не чистая наука, а инженерная задача», — подчёркивает Адебайо. «Мы решили научную часть, теперь масштабируем. Нет причин, почему такие модели не догонят фронтирные с их огромными параметрами».

Guide Labs сообщает: Steerling-8B достигает 90% возможностей существующих аналогов, но требует меньше данных для обучения благодаря свежей архитектуре. Компания вышла из Y Combinator и в ноябре 2024 года привлекла 9 миллионов долларов на посевном раунде от Initialized Capital. Далее — более крупная модель плюс API и доступ к агентам для пользователей.

«Способы обучения моделей сейчас примитивны, а встроенная интерпретируемость пойдёт на пользу человечеству в долгосрочной перспективе», — заключает Адебайо. «Сверхумными системами, которые решают за нас, должно быть понятно, как они работают».

Guide Labs представила интерпретируемую LLM Steerling-8B

Проблемы понимания решений больших языковых моделей

Где пригодится прозрачная архитектура

Горячее

Возможности OpenCode + Ollama + Qwen3-Coder локально

Краткий курс по ComfyUI для новичков

Топ-5 API-провайдеров открытых ИИ-моделей

Топ-7 открытых моделей OCR

Генератор видео ChatUp AI без цензуры: ключевые возможности

Сейчас в тренде