Новости и статьи об искусственном интеллекте и нейросетях. Мы собираем и обрабатываем самую актуальную информацию из мира AI. О проекте

Новости

Новая модель OpenAI раскрывает механизмы ИИ

OpenAI представила экспериментальную модель weight-sparse transformer, которая помогает раскрывать внутренние механизмы работы ИИ. Несмотря на меньшую мощность по сравнению с GPT-5 или Claude, она облегчает понимание нейронных процессов. Исследователи надеются развить подход до уровня GPT-3 для повышения безопасности систем.

15 ноября 2025 г.
3 мин
0

По мере усиления возможностей систем искусственного интеллекта они все глубже проникают в ключевые сферы жизни, отметил Лео Гао, научный сотрудник OpenAI, в эксклюзивном обзоре свежих разработок для MIT Technology Review. Важно обеспечить их безопасность.

Это начальный этап исследований. Представленная модель, получившая название weight-sparse transformer, значительно уступает по размеру и производительности ведущим коммерческим системам, таким как GPT-5 от той же компании, Claude от Anthropic и Gemini от Google DeepMind. По оценкам Гао, ее возможности сопоставимы с GPT-1, разработанной OpenAI в 2018 году, хотя прямого сравнения его команда не проводила.

Цель проекта не в конкуренции с лидерами рынка (пока что). Исследователи OpenAI стремятся разобраться в скрытых процессах, происходящих внутри более масштабных и совершенных версий этой технологии, изучая поведение экспериментальной модели.

Такие исследования вызывают интерес, считает Элисенда Григсби, математик из Бостонского колледжа, специализирующийся на механизмах работы больших языковых моделей и не участвовавший в проекте: методы, предложенные здесь, наверняка окажут существенное влияние.

Ле Шарки, научный сотрудник стартапа Goodfire в области ИИ, разделяет это мнение. По его словам, работа нацелена верно и выполнена качественно.

Почему модели трудно понять

Разработки OpenAI относятся к активно развивающейся области, называемой механистической интерпретируемостью, которая стремится картографировать внутренние механизмы, задействованные моделями при выполнении различных заданий.

Это оказывается сложнее, чем кажется на первый взгляд. Большие языковые модели основаны на нейронных сетях, состоящих из узлов, известных как нейроны, организованных в слои. В типичных сетях каждый нейрон связан со всеми нейронами соседних слоев. Такие структуры называют плотными сетями.

Плотные сети относительно эффективны в обучении и эксплуатации, но распределяют усвоенные знания по обширной паутине связей. В итоге простые понятия или функции могут фрагментироваться между нейронами в удаленных участках модели. Одновременно отдельные нейроны способны кодировать несколько различных характеристик — это явление называется суперпозицией (термин заимствован из квантовой физики). Итог: невозможно привязать конкретные элементы модели к определенным концепциям.

Нейронные сети огромны, сложны, запутаны и крайне трудны для понимания, подчеркивает Дэн Моссинг, возглавляющий команду по механистической интерпретируемости в OpenAI. Мы решили: а что, если изменить это положение дел?

Вместо плотной сети OpenAI применила вариант нейронной сети под названием weight-sparse transformer, где каждый нейрон соединяется лишь с несколькими другими. Это вынудило модель группировать признаки в локализованные кластеры, а не рассеивать их повсеместно.

Их модель работает гораздо медленнее, чем любые доступные на рынке большие языковые модели. Однако связать ее нейроны или группы нейронов с конкретными понятиями и функциями проще. По словам Гао, разница в интерпретируемости поразительна.

Гао и его коллеги проверили новую модель на элементарных заданиях. К примеру, они попросили ее завершить фрагмент текста, начинающийся с открывающих кавычек, добавив соответствующие закрывающие знаки.

Для большой языковой модели это примитивная операция. Суть в том, что даже для такого банального действия требуется разбирать сложный клубок нейронов и связей, объясняет Гао. Но с новой моделью удалось проследить все шаги, которые она предприняла.

Мы обнаружили цепочку, точно соответствующую алгоритму, который человек реализовал бы вручную, но модель выучила ее самостоятельно, говорит он. Это по-настоящему впечатляюще и вдохновляюще.

Куда двигаться дальше? Григсби сомневается, что подход масштабируется на крупные модели, способные справляться с разнообразными сложными задачами.

Гао и Моссинг признают это серьезным ограничением текущей конструкции и согласны, что метод никогда не даст производительности на уровне передовых продуктов вроде GPT-5. Тем не менее в OpenAI верят, что удастся доработать технику до создания прозрачной модели, сравнимой с GPT-3 — прорывной большой языковой моделью компании 2021 года.

Возможно, через несколько лет мы получим полностью интерпретируемую GPT-3, где можно разобрать каждую ее часть и понять, как она функционирует в целом, предполагает Гао. С такой системой мы узнали бы невероятно много.