GM обучает ИИ вождению в 50 000 раз быстрее реального

General Motors обучает ИИ для автономного вождения в симуляциях в 50 000 раз быстрее реального времени, используя Boxworld, VLA-модели и синтетические данные для длинного хвоста сценариев. Подход сочетает высокодетализированные симуляции, adversarial тесты и дистилляцию политики, снижая риски столкновений на 30%. Это создает основу для полностью надежных систем.

Автономное вождение остается одной из наиболее сложных задач для физического ИИ. Автоматизированная система обязана в реальном времени анализировать хаотичный и постоянно меняющийся мир, преодолевать неопределенность, прогнозировать действия людей и обеспечивать безопасность в бесчисленных условиях и редких ситуациях.

В General Motors исходят из того, что предсказуемые моменты на дороге составляют большинство, но именно редкие, неоднозначные и внезапные происшествия — так называемый длинный хвост — определяют надежность и безопасность автономной системы, ее готовность к массовому использованию.

По мере продвижения GM к режиму вождения на шоссе без необходимости смотреть на дорогу и далее к полностью автономным автомобилям, преодоление длинного хвоста превращается в главную инженерную задачу. Нужно создать системы, которые разумно поведут себя в любых неожиданных обстоятельствах.

GM разрабатывает масштабируемый ИИ для вождения, объединяя обширные симуляции, обучение с подкреплением и рассуждения на основе базовых моделей. Это позволяет тренировать автономные системы с такой скоростью и объемом, которые недостижимы только в реальности.

Стресс-тестирование длинного хвоста

Сценарии длинного хвоста в автономном вождении разнообразны.

Некоторые выделяются своей редкостью. Матрас на проезжей части. Прорыв пожарного гидранта. Масштабное отключение электричества в Сан-Франциско, когда беспилотные машины пришлось вести через совершенно новые препятствия из-за неработающих светофоров. Такие системные взаимодействия, особенно в густонаселенных городах, демонстрируют, как редкие крайние случаи могут нарастать.

Однако длинный хвост не ограничивается уникальными происшествиями. Он включает и обыденные ситуации, где требуется типичная человеческая деликатность или здравый смысл. Как встать в очередь за местом на забитой парковке, не создавая пробки? Как проехать зону ремонта, ориентируясь на жесты рабочих и временные знаки? Для человека это просто, но для машины требует тщательной доработки.

Применение моделей зрения-язык-действие

Одним из инструментов GM для решения таких тонких задач стали модели Vision Language Action, или VLA. Они берут за основу стандартную модель зрения и языка, опирающуюся на огромный объем знаний из интернета для анализа изображений. Инженеры GM добавляют специализированные декодирующие головы, чтобы адаптировать ее под конкретные задачи вождения. Полученная VLA не только распознает изображения, но и отслеживает траектории транспорта, выявляет трехмерные объекты.

Такие модели помогают автомобилю понять, что жест полицейского перевешивает красный сигнал светофора, или распознать зону погрузки на оживленном терминале аэропорта.

Кроме того, модели формируют цепочки рассуждений, объясняющие причины маневра. Это ценный инструмент для отладки, проверки и формирования доверия.

Тестирование опасных сценариев в высокодетализированных симуляциях

Проблема в том, что вождение требует мгновенных реакций, и лишняя задержка недопустима. Для этого GM создает Dual Frequency VLA. Масштабная модель работает на низкой частоте, принимая семантические решения вроде "ветка это на дороге или бетонный блок?", а компактная и быстрая модель управляет пространственным контролем вроде руления и торможения.

Гибридный метод дает доступ к глубокому семантическому анализу без ущерба для скорости реакции, необходимой для безопасности.

Но чтобы безопасно пройти крайний случай, модель должна не только распознать его, но и правильно на него отреагировать. Тут незаменим опыт.

Поэтому ежедневно запускаются миллионы высокодетализированных замкнутых симуляций, эквивалентных десяткам тысяч дней человеческого вождения, сжатых в часы. Можно воспроизводить реальные события, изменять данные для новых виртуальных ситуаций или создавать их с нуля. Так система регулярно проверяется на опасные сценарии, которые в реальности почти невозможно встретить без риска.

Синтетические данные для самых сложных случаев

Откуда берутся эти симулированные сценарии? Инженеры GM применяют множество ИИ-технологий для генерации новых обучающих данных, моделирующих экстремальные условия, но сохраняющих реализм.

Исследование GM по Seed-to-Seed Translation использует диффузионные модели, чтобы преобразовывать реальные записи: ясный день превращается в дождливую или туманную ночь при полном сохранении геометрии сцены. Получается смена домена — погода меняется, остальное остается прежним.

Симулятор GM World на базе диффузии генерирует совершенно новые сценарии движения по естественному языку и пространственным рамкам. Можно вызвать любую погоду или добавить в существующую сцену вызов вроде врезавшегося автомобиля.

Высокодетализированная симуляция не всегда оптимальна для каждого этапа обучения. Фотorealизм нужен для тренировки восприятия в разных условиях. Но для принятия решений и тактического планирования — когда сливаться в поток или пересекать перекресток — важнее пространственные связи и динамика трафика, а не мелкие детали вроде луж или выбоин. Для обучения с подкреплением ИИ может потребоваться миллиарды или триллионы легких примеров, где модели осваивают правила разумного вождения через быстрые пробы и ошибки, а не только подражание.

Для этого General Motors создала собственный симулятор GM Gym на базе мультиагентного обучения с подкреплением. Он имитирует детализированные данные сенсоров и моделирует тысячи водителей в секунду в абстрактной среде Boxworld.

Boxworld фокусируется на ключевом: позиционировании, скорости, правилах, игнорируя второстепенное вроде луж. Это дает сверхбыструю среду для моделей обучения с подкреплением — в 50 000 раз быстрее реального времени, с моделированием 1000 км вождения на секунду GPU-времени. Такой подход позволяет не копировать людей, а создавать модели с проверяемыми результатами вроде безопасности и продвижения.

От абстрактной политики к реальному вождению

Конечно, путь от дома до работы лежит не через Boxworld, а по асфальту с тенями и погодой. Чтобы перенести знания в реальность, GM применяет технику On Policy Distillation: симулятор работает в двух режимах одновременно — абстрактном быстром Boxworld и детализированном с сенсорами.

Модель обучения с подкреплением, натренированная на бесчисленных виртуальных километрах и владеющая идеальной "политикой" или стратегией вождения, выступает учителем для "ученика" — модели, которая поедет в автомобиле. Передача знаний эффективна: 30 минут дистилляции эквивалентны 12 часам чистого обучения с подкреплением, позволяя реальной модели быстро усвоить инстинкты безопасности.

Проектирование сбоев заранее

Симуляция служит не только для хорошего вождения, но и для провоцирования отказов. Для жесткого стресс-теста GM использует дифференцируемый пайплайн SHIFT3D. Вместо копирования мира он его меняет, создавая "адверсариальные" объекты, обманывающие восприятие. Обычный седан морфится в искаженную версию, трудную для обнаружения. Оптимизация таких сбоев помогает заранее выявлять риски. Переобучение на этих "сложных" объектах снижает почти-коллизии более чем на 30%, устраняя пробелы в безопасности.

Даже с продвинутыми симуляциями и тестами система должна осознавать свои пределы. Для безопасности в неизвестном исследователи GM добавляют "головку эпистемической неопределенности". Она отличает обычный шум от настоящей путаницы. В длиннохвостовом событии модель сигнализирует высокую неопределенность, помечая примеры для анализа и добавления в данные.

Этот всесторонний подход — от стратегии Boxworld до адверсариального тестирования — предлагает GM рамки для последнего 1% автономии. Он закладывает основу для развития, но ставит новые задачи.

Как сбалансировать неограниченные данные от обучения с подкреплением и ограниченные, но качественные из реального вождения? Насколько близко можно подойти к человеческому вождению через функцию вознаграждения? Можно ли выйти за смену доменов к сценариям с новыми объектами?

Решение длинного хвоста в масштабе

Преодоление длинного хвоста автономии — не вопрос одной модели или метода. Нужна экосистема, сочетающая детализированные симуляции с абстрактными средами, обучение с подкреплением с имитацией, семантику с мгновенным контролем.

Подход улучшает не только типичные случаи. Он выявляет редкие, неоднозначные и трудные сценарии, определяющие готовность к работе без человека.

Остаются вопросы. Насколько человечной может стать политика вождения на вознаграждениях? Как лучше слить симулированный опыт с реальными знаниями людей? Как далеко зайдут генеративные модели мира в создании критичных крайних случаев?

Ответы на них определяют будущее автономного вождения. В GM создают инструменты, инфраструктуру и культуру исследований для их решения — в масштабах реальных автомобилей, клиентов и дорог.

Обучение ИИ для вождения в 50 000 раз быстрее реального времени

Стресс-тестирование длинного хвоста

Применение моделей зрения-язык-действие

Тестирование опасных сценариев в высокодетализированных симуляциях

Синтетические данные для самых сложных случаев

От абстрактной политики к реальному вождению

Проектирование сбоев заранее

Решение длинного хвоста в масштабе

Горячее

Тревожный сигнал: реальная цена ИИ от Google и Amazon

Alibaba запрещает сотрудникам использовать Claude Code

Последний экзамен человечества — отвлекающий манёвр?

Gemini Spark от Google теперь доступен на Mac

Anthropic представила Claude Science — ИИ-помощника для учёных

Сейчас в тренде