Goodfire представила Silico для интерпретации LLM

Goodfire представила Silico — платформу механистической интерпретируемости для LLM. Инструмент автоматизирует анализ нейронов, помогает исправлять галлюцинации, этические сбои и ошибки вроде сравнения 9.11 с 9.9. Это позволит малым командам создавать надежные модели без проб и ошибок.

Goodfire ставит цель превратить разработку ИИ-моделей из загадочного ремесла в строгую науку. Большие языковые модели, такие как ChatGPT и Gemini, демонстрируют впечатляющие способности. Однако механизмы их работы остаются неясными, что усложняет устранение дефектов и блокировку нежелательных реакций.

«Мы заметили разрыв между уровнем понимания моделей и скоростью их внедрения», — рассказал CEO Goodfire Эрик Хо. «В главных лабораториях полагают, что AGI достигается просто за счет большего масштаба, вычислений и данных. Мы же предлагаем иной подход».

Goodfire входит в группу компаний вроде Anthropic, OpenAI и Google DeepMind, которые продвигают механистическую интерпретируемость. Этот подход помогает разобраться в процессах внутри модели при выполнении задач через картирование нейронов и связей между ними.

Goodfire использует метод не только для анализа готовых моделей, но и для их создания с самого начала.

«Нам нужно убрать эксперименты наугад и сделать обучение моделей точной инженерией», — заявляет Хо. «Для этого открываем инструменты управления прямо на этапе тренировки».

Ранее Goodfire применяла свои методы для изменения поведения LLM, в частности, для снижения галлюцинаций. Silico собирает эти разработки в готовый продукт.

Платформа задействует агентов, чтобы автоматизировать большую часть сложных операций. «Агенты достигли уровня, когда заменяют ручной труд по интерпретируемости», — поясняет Хо. «Это сделало платформу доступной для самостоятельного использования клиентами».

Леонард Береска, исследователь из Университета Амстердама, работающий над механистической интерпретируемостью, называет Silico полезным инструментом. Однако он сомневается в грандиозных планах Goodfire: «На деле они уточняют алхимию. Называть это инженерией — преувеличение».

Картирование моделей

Silico позволяет детально изучать фрагменты обученной модели — отдельные нейроны или их группы — и запускать тесты для наблюдения за их активностью. (Требуется доступ к параметрам модели. Silico не сработает с ChatGPT или Gemini, зато подходит для множества открытых моделей.) Разработчики видят, какие входные данные активируют нейроны, и прослеживают связи в обе стороны: как другие нейроны влияют на данный и как он воздействует на них.

К примеру, в открытой модели Qwen 3 Goodfire выявила нейрон, привязанный к классической «проблеме тележки». При его включении модель начинала оформлять ответы как моральные дилеммы. «Активация вызывает множество странностей», — отмечает Хо.

Такие находки стали обыденностью. Silico идет дальше и облегчает правки: можно корректировать параметры конкретных нейронов, чтобы усилить или подавить нужное поведение.

В тесте исследователи спросили модель, стоит ли компании раскрывать случаи обмана ИИ в 0,3% сценариев, когда это касается 200 миллионов пользователей. Модель ответила отрицательно, сославшись на вред для бизнеса.

Анализ показал: активация нейронов, связанных с прозрачностью и раскрытием информации, переворачивала ответ на положительный в 9 случаях из 10. «У модели уже была этическая логика, но расчет коммерческих рисков ее перекрывал», — объясняет Хо.

Такие правки — один из вариантов. Silico также корректирует процесс обучения, отсеивая данные, чтобы параметры не приобретали нежелательные значения заранее.

Например, модели часто утверждают, что 9.11 больше 9.9. Глубокий взгляд раскрывает влияние нейронов, ассоциированных с Библией (где стих 9:9 предшествует 9:11) или репозиториями кода (обновления 9.9, 9.10, 9.11). На основе этого модель дообучают, чтобы в математических задачах она обходила «библейские» нейроны.

Выпуск Silico передает инструменты, ранее доступные элитным лабораториям, в руки небольших фирм и команд. Они смогут строить свои модели или модифицировать открытые. Стоимость платформы определяется индивидуально под нужды клиента (Goodfire не раскрыла точные тарифы).

«Если обучение моделей упростится до уровня создания софта, то множество компаний смогут разрабатывать решения под себя», — уверен Хо.

Береска подтверждает: подобные инструменты повысят надежность моделей. Особенно это важно для медицины и финансов, где безопасность критична.

«Топовые лаборатории держат штат интерпретаторов. Silico дает следующему уровню компаний шанс обойтись без найма таких экспертов».

Инструмент Silico от Goodfire для отладки языковых моделей

Картирование моделей

Горячее

Тревожный сигнал: реальная цена ИИ от Google и Amazon

Alibaba запрещает сотрудникам использовать Claude Code

Последний экзамен человечества — отвлекающий манёвр?

Gemini Spark от Google теперь доступен на Mac

Anthropic представила Claude Science — ИИ-помощника для учёных

Сейчас в тренде