Исследователи из Массачусетского технологического института сравнили 59 научных моделей ИИ и обнаружили, что они формируют похожие внутренние представления молекул, материалов и белков, даже если используют разные архитектуры и обучаются на разных задачах.
Научные модели ИИ обрабатывают совершенно разные входные данные. Одни работают со строками, описывающими молекулы, другие — с трехмерными координатами атомов, третьи — с последовательностями белков. Но несмотря на такие различия в данных для обучения, внутри моделей возникает нечто общее. К такому выводу пришли ученые из MIT в свежем исследовании.
Команда проанализировала 59 моделей. Среди них были специализированные системы для молекул, материалов и белков, а также крупные языковые модели вроде DeepSeek и Qwen. Ученые извлекли внутренние представления каждой модели и сопоставили их по нескольким показателям.
Чем лучше модель, тем ближе её представления
Внутренние представления заметно совпадают независимо от формата входных данных. Модели, работающие с трехмерными координатами, хорошо согласуются между собой, то же касается и текстовых моделей. Ещё интереснее, что между этими группами тоже есть явные сходства.
Чем успешнее модель справляется с задачей обучения, тем её представления ближе к лидерам по производительности. Это наводит на мысль, что сильные модели захватывают общую картину физической реальности. Сложность этих представлений тоже укладывается в узкий диапазон у всех моделей, что указывает на универсальную структуру.
Неизвестные структуры показывают слабости обобщения
Анализ выявил и ограничения. Для знакомых структур, близких к обучающим данным, сильные модели дают совпадающие представления, а слабые — свои собственные, менее применимые варианты. Но когда дело доходит до совсем новых структур, сильно отличающихся от обучающих примеров, почти все модели дают сбой. Их представления упрощаются и теряют ключевую химическую информацию.
Современные модели для материалов ещё далеки от статуса фундаментальных, считают исследователи: их представления слишком зависят от узких наборов данных для обучения. Для настоящей универсальности нужны гораздо более разнообразные датасеты. Авторы предлагают новый критерий — согласованность представлений: модель может считаться фундаментальной, только если сочетает высокую производительность с сильным совпадением с другими топ-моделями.
Неспособность обобщаться за пределы обучающих данных — типичная проблема сегодняшних моделей ИИ. Исследования показывают, что трансформеры, например, регулярно проваливаются на задачах композиции — когда нужно комбинировать известные факты в новые выводы при нестандартных сценариях.
Ещё в мае 2024 года исследование из того же института демонстрировало: по мере роста производительности разные модели ИИ сходятся к общим представлениям. Ученые окрестили это «платоновским представлением» — отсылка к аллегории Платона о пещере. Новая работа впервые применила эту идею к научным моделям и подтвердила: специализированные системы для химии и биологии тоже движутся к единой модели вещества.
Недавний SDE-бенчмарк для научных исследований выявил другую форму сходимости: модели часто приходят к одним и тем же ошибочным ответам на самые сложные вопросы. Лучшие модели здесь тоже больше всего согласуются. Раннее исследование показало похожий эффект в контексте надзора ИИ за другими ИИ: схожесть в ошибках порождает слепые зоны и свежие способы сбоев.