Новости и статьи об искусственном интеллекте и нейросетях. Мы собираем и обрабатываем самую актуальную информацию из мира AI. О проекте

Новости

Google DeepMind на NeurIPS 2024

Google DeepMind представит на конференции NeurIPS 2024 более 100 новых работ по агентами ИИ, 3D-генерации и обучению языковых моделей. Две ключевые статьи получат награды Test of Time за влияние на поле. Демонстрации покажут практическое применение исследований в музыке, погоде и безопасности.

13 октября 2025 г.
6 мин
17

Развитие адаптивных агентов ИИ, расширение возможностей создания 3D-сцен и инновации в обучении больших языковых моделей для более умного и безопасного будущего

На следующей неделе ведущие специалисты по ИИ со всего мира соберутся на 38-й ежегодной конференции по системам обработки нейронной информации (NeurIPS), которая пройдет с 10 по 15 декабря в Ванкувере.

Две работы, возглавляемые исследователями Google DeepMind, получат награды Test of Time за их неоспоримое влияние на область. Илья Сутскевер представит статью Sequence to Sequence Learning with Neural Networks, соавторами которой являются вице-президент Google DeepMind по радикальным исследованиям Ориол Виньялс и выдающийся ученый Куок В. Ле. Ученые Google DeepMind Иэн Гудфеллоу и Дэвид Уард-Фарли представят Generative Adversarial Nets.

Кроме того, будет продемонстрировано, как фундаментальные исследования преобразуются в практические приложения, с живыми показами, включая Gemma Scope, инструменты ИИ для генерации музыки, прогнозирование погоды и многое другое.

Команды Google DeepMind представят свыше 100 новых работ по темам от агентов ИИ и генеративных медиа до новаторских методов обучения.

Создание адаптивных, интеллектуальных и безопасных агентов ИИ

Агенты ИИ на базе больших языковых моделей демонстрируют потенциал в выполнении цифровых задач через команды на естественном языке. Однако их эффективность зависит от точного взаимодействия со сложными пользовательскими интерфейсами, что требует обширных данных для обучения. С помощью AndroidControl мы предоставляем наиболее разнообразный набор данных для управления, включающий более 15 000 демонстраций, собранных людьми, по свыше 800 приложений. Агенты ИИ, обученные на этом наборе, показали существенное улучшение производительности, что, как мы надеемся, способствует прогрессу в разработке более универсальных агентов ИИ.

Чтобы агенты ИИ могли обобщать знания на разные задачи, им необходимо извлекать уроки из каждого опыта. Мы предлагаем подход для обучения абстракциям в контексте, который позволяет агентам улавливать ключевые шаблоны задач и связи из неидеальных демонстраций и отзывов на естественном языке, повышая их эффективность и гибкость.

Кадр из видео-демонстрации приготовления соуса, где выделены и пронумерованы отдельные элементы. Метод ICAL способен выделить важные аспекты процесса.

Разработка агентного ИИ, ориентированного на достижение целей пользователей, может сделать технологию полезнее, но согласованность остается ключевой при создании ИИ, действующего от нашего имени. С этой целью мы вводим теоретический метод для оценки направленности ИИ-системы на цели, а также демонстрируем, как восприятие модели своего пользователя влияет на ее фильтры безопасности. Эти выводы подчеркивают значимость надежных мер защиты для предотвращения нежелательного или опасного поведения, гарантируя, что действия агентов ИИ соответствуют безопасным и запланированным применениям.

Прогресс в создании и симуляции 3D-сцен

По мере роста спроса на качественный 3D-контент в отраслях вроде игр и визуальных эффектов создание реалистичных 3D-сцен остается затратным и трудоемким процессом. Наши последние разработки предлагают новые методы генерации, симуляции и управления 3D, упрощая производство контента для более быстрых и гибких рабочих процессов.

Производство высококачественных реалистичных 3D-активов и сцен часто предполагает захват и моделирование тысяч 2D-фотографий. Мы представляем CAT3D — систему, способную генерировать 3D-контент за считанные минуты на основе любого количества изображений — даже одного снимка или текстового описания. CAT3D достигает этого с помощью модели диффузии для множественных видов, которая создает дополнительные согласованные 2D-изображения с разных ракурсов, а затем использует их как вход для классических техник 3D-моделирования. Результаты превосходят предшествующие подходы по скорости и качеству.

CAT3D позволяет создавать 3D-сцены из любого количества сгенерированных или реальных изображений.

Слева направо: текст-в-изображение-в-3D, реальное фото в 3D, несколько фото в 3D.

Симуляция сцен с множеством жестких объектов, таких как беспорядочно расставленные предметы на столе или падающие кубики Lego, также требует значительных вычислительных ресурсов. Чтобы преодолеть это препятствие, мы предлагаем технику SDF-Sim, которая представляет формы объектов масштабируемым образом, ускоряя обнаружение столкновений и обеспечивая эффективную симуляцию больших и сложных сцен.

Сложная симуляция падения и столкновения обуви, точно смоделированная с использованием SDF-Sim.

Генераторы изображений ИИ на основе диффузионных моделей испытывают трудности с контролем 3D-положения и ориентации нескольких объектов. Наше решение, Neural Assets, вводит представления, специфичные для объектов, захватывающие как внешний вид, так и 3D-позу, обученные на данных динамического видео. Neural Assets позволяет пользователям перемещать, поворачивать или обменивать объекты между сценами — ценный инструмент для анимации, игр и виртуальной реальности.

На основе исходного изображения и 3D-ограничивающих боксов объектов мы можем перемещать, поворачивать и масштабировать объект или переносить объекты или фоны между изображениями.

Улучшение процессов обучения и реагирования больших языковых моделей

Мы также продвигаем способы обучения, усвоения знаний и ответов больших языковых моделей, повышая производительность и эффективность по нескольким направлениям.

С расширенными контекстными окнами большие языковые модели теперь могут обучаться на потенциально тысячах примеров одновременно — это называется многопримерным обучением в контексте (many-shot ICL). Такой процесс усиливает результаты моделей в задачах вроде математики, перевода и рассуждений, но обычно требует высококачественных данных, созданных людьми. Чтобы сделать обучение более экономичным, мы изучаем способы адаптации многопримерного ICL, снижающие зависимость от вручную отобранных данных. Доступно огромное количество данных для обучения языковых моделей, и основным ограничением для команд становится вычислительная мощность. Мы разбираем ключевой вопрос: при фиксированном бюджете вычислений как выбрать оптимальный размер модели для наилучших результатов?

Еще один инновационный метод, который мы называем Time-Reversed Language Models (TRLM), исследует предварительное обучение и дообучение большой языковой модели для работы в обратном направлении. Получая на вход типичные ответы большой языковой модели, TRLM генерирует запросы, которые могли бы их вызвать. В сочетании с традиционной большой языковой моделью этот подход не только улучшает следование ответов инструкциям пользователя, но и усиливает генерацию ссылок для суммированного текста, а также повышает эффективность фильтров безопасности против вредоносного контента.

Подбор высококачественных данных критически важен для обучения крупных моделей ИИ, но ручной отбор сложен в больших масштабах. Для решения этой проблемы наш алгоритм Joint Example Selection (JEST) оптимизирует обучение, выявляя наиболее усваиваемые данные в крупных партиях, что позволяет сократить количество раундов обучения до 13 раз и вычисления в 10 раз, превосходя современные базовые подходы к предварительному обучению мультимодальных моделей.

Планирование задач представляет вызов для ИИ, особенно в стохастических средах, где результаты зависят от случайности или неопределенности. Исследователи применяют разные типы вывода для планирования, но отсутствует единый метод. Мы показываем, что планирование можно рассматривать как отдельный вид вероятностного вывода, и предлагаем рамку для ранжирования различных техник вывода по их эффективности в планировании.

Соединение глобального сообщества ИИ

Мы рады выступать в роли спонсора конференции и поддерживать инициативы вроде Women in Machine Learning, LatinX in AI и Black in AI в формировании сообществ по всему миру в области ИИ, машинного обучения и анализа данных.

На NeurIPS в этом году посетители смогут ознакомиться с передовыми исследованиями в демонстрациях, воркшопах и других мероприятиях на стендах Google DeepMind и Google Research на протяжении всей конференции.