В ближайшие дни ведущие специалисты по искусственному интеллекту со всего мира соберутся на 12-й Международной конференции по представлениям в обучении (ICLR), которая пройдет с 7 по 11 мая в Вене, Австрия.
Вице-президент по исследованиям Google DeepMind Райя Хэдселл выступит с ключевым докладом, где расскажет о развитии области за последние два десятилетия и объяснит, как накопленный опыт влияет на создание ИИ в интересах человечества.
Кроме того, будут представлены живые демонстрации, иллюстрирующие применение фундаментальных исследований на практике, включая создание трансформеров для робототехники и разработку наборов инструментов с открытыми моделями, такими как Gemma.
Сотрудники Google DeepMind представят свыше 70 работ. Среди ключевых направлений исследований можно выделить следующие.
Агенты для решения задач и подходы, вдохновленные человеком
Большие языковые модели (LLM) уже кардинально меняют возможности передовых инструментов ИИ, но их потенциал еще далек от полного раскрытия. Например, агенты на базе LLM, способные выполнять эффективные действия, могут превратить цифровых ассистентов в более полезные и интуитивные системы.
Ассистенты ИИ, которые по естественным языковым инструкциям выполняют веб-задачи от имени пользователей, значительно сэкономят время. В устном докладе представлен WebAgent — агент на основе LLM, который осваивает навигацию и управление сложными задачами на реальных веб-сайтах через самообучение на собственном опыте.
Для повышения общей полезности LLM акцент сделан на улучшении навыков решения задач. Достигнуто это за счет интеграции в систему на базе LLM традиционного человеческого метода: создания и применения "инструментов". Отдельно описана техника обучения, гарантирующая более последовательный вывод социально приемлемых результатов от языковых моделей. Метод использует изолированное пространство репетиций, отражающее ценности общества.
Расширение границ в области зрения и программирования

До недавнего времени крупные модели ИИ в основном ориентировались на текст и изображения, закладывая основу для масштабного распознавания паттернов и интерпретации данных. Сейчас сфера выходит за пределы этих статичных областей, переходя к динамике реальных визуальных окружений. По мере прогресса вычислительных технологий особое значение приобретает генерация и оптимизация кода с максимальной эффективностью.
Просматривая видео на плоском экране, человек интуитивно понимает трехмерность сцены. Машины же с трудом воспроизводят эту способность без явного надзора. Представлена модель Dynamic Scene Transformer (DyST), которая на основе видео с одной камеры извлекает 3D-представления объектов и их движений. Более того, DyST позволяет генерировать новые варианты того же видео с контролем над углами камеры и содержимым.
Имитация когнитивных стратегий человека также улучшает генераторы кода на ИИ. Программисты при написании сложного кода обычно разбивают задачу на простые подзадачи. С помощью ExeDec предложен инновационный подход к генерации кода, использующий декомпозицию для повышения производительности программирования и обобщения в системах ИИ.
В отдельной работе в формате spotlight рассмотрено применение машинного обучения не только для генерации кода, но и для его оптимизации, с введением датасета для надежного бенчмаркинга производительности кода. Оптимизация кода сложна и требует глубокого рассуждения, а предложенный датасет позволяет тестировать разнообразные техники ML. Показаны стратегии обучения, превосходящие ручные оптимизации, созданные людьми.

Прогресс в фундаментальном обучении
Исследовательские группы решают ключевые вопросы ИИ — от анализа сути машинного познания до понимания обобщения в продвинутых моделях ИИ, — одновременно преодолевая теоретические барьеры.
Для людей и машин причинно-следственное рассуждение тесно связано со способностью предсказывать события. В докладе в формате spotlight изучено влияние задач обучения на основе предсказаний на обучение с подкреплением, с параллелями к изменениям мозговой активности, связанным с предсказаниями.
Обобщают ли агенты ИИ на новые сценарии благодаря, как у людей, освоению базовой причинной модели мира? Это фундаментальный вопрос для продвинутого ИИ. В устном докладе показано, что такие модели действительно усваивают приблизительную причинную модель процессов, лежащих в основе данных обучения, и рассмотрены глубокие последствия.
Еще один важный аспект ИИ — доверие, которое частично зависит от точной оценки неопределенности выходов моделей, критической для надежного принятия решений. Достигнуты значительные успехи в оценке неопределенности в байесовском глубоком обучении с помощью простого и практически бесплатного метода.
Наконец, рассмотрено равновесие Нэша в теории игр — состояние, где ни один игрок не выигрывает от изменения стратегии при сохранении тактики оппонентов. За пределами простых двухсторонних игр даже приближение равновесия Нэша вычислительно неразрешимо, но в устном докладе представлены новые передовые методы для переговоров от покера до аукционов.