В предстоящую неделю сообщество специалистов по искусственному интеллекту соберется на Международной конференции по машинному обучению 2024 года (ICML). Мероприятие пройдет с 21 по 27 июля в Вене, Австрия, и станет глобальной площадкой для демонстрации новейших достижений, обмена мнениями и определения направлений развития исследований в области ИИ.
В этом году специалисты из Google DeepMind представят свыше 80 научных работ. Среди ключевых тем — изучение искусственного общего интеллекта (AGI), проблемы масштабирования и перспективы мультимодального генеративного ИИ.
В этой публикации описываются некоторые доклады в формате устных выступлений, спотлайтов и постеров.
Определение пути к AGI
Что такое искусственный общий интеллект (AGI)? Этот термин обозначает систему ИИ, которая по возможностям не уступает человеку в большинстве задач. По мере прогресса моделей ИИ все более актуальным становится практическое определение того, как может выглядеть AGI.
Будет представлена методология для классификации способностей и поведения моделей AGI. В зависимости от уровня производительности, универсальности и самостоятельности, предлагаемая работа распределяет системы от простых не-ИИ калькуляторов до развивающихся моделей ИИ и других инновационных технологий.
Также будет продемонстрировано, что открытость является ключевым фактором для создания обобщенного ИИ, превосходящего человеческие возможности. Хотя многие недавние прорывы в ИИ опирались на данные масштаба интернета, открытые системы способны производить новые открытия, расширяющие знания человечества.

Эффективное и ответственное масштабирование систем ИИ
Разработка более крупных и мощных моделей ИИ требует оптимизированных методов обучения, лучшей согласованности с предпочтениями людей и усиленных мер защиты конфиденциальности.
Будет показано, как применение методов классификации вместо регрессии упрощает масштабирование систем глубокого обучения с подкреплением и позволяет достигать передовых результатов в различных областях. Кроме того, предлагается инновационный метод, который прогнозирует распределение последствий действий агента в обучении с подкреплением, способствуя быстрой оценке новых ситуаций.
Исследователи представят подход, сохраняющий согласованность, который минимизирует необходимость человеческого контроля, а также новую технику тонкой настройки больших языковых моделей (LLM) на основе теории игр, обеспечивающую более точное соответствие выходных данных моделям человеческим предпочтениям.
Кроме того, будет дана критика метода обучения моделей на публичных данных с последующей тонкой настройкой только с использованием дифференциально-приватного обучения, поскольку такой подход может не обеспечивать заявляемого уровня приватности или полезности.

Новые методы в генеративном ИИ и мультимодальности
Технологии генеративного ИИ и мультимодальные функции расширяют творческий потенциал цифровых медиа.
Будет представлена VideoPoet — модель, использующая LLM для создания видео и аудио на мировом уровне из мультимодальных входных данных, включая изображения, текст, аудио и другие видео.
Также будет поделена информацией о Genie (генеративные интерактивные окружения), которая генерирует разнообразные игровые среды для обучения агентов ИИ на основе текстовых подсказок, изображений, фотографий или эскизов.
Наконец, вводится MagicLens — инновационная система поиска изображений, применяющая текстовые инструкции для извлечения изображений с более глубокими связями, выходящими за рамки визуального сходства.
Поддержка сообщества ИИ
Google DeepMind гордится спонсорством ICML и содействием разнообразию в сообществе ИИ и машинного обучения через поддержку инициатив от Disability in AI, Queer in AI, LatinX in AI и Women in Machine Learning.