Новости и статьи об искусственном интеллекте и нейросетях. Мы собираем и обрабатываем самую актуальную информацию из мира AI. О проекте

Новости

Визуальные модели языка научили роботов считывать эмоции человека

Учёные обучили коллаборативных роботов распознавать эмоции людей с помощью визуальной языковой модели (VLM), которая учитывает мимику и контекст взаимодействия. Эксперименты показали, что VLM превосходит традиционные системы анализа лиц, но персонализированные извинения не восстанавливают утраченное из-за ошибок доверие — люди больше ценят функциональность машины, чем её эмоциональную отзывчивость.

вчера
4 мин
40

Эмоциональный интеллект для коллаборативных роботов

По мере роста ловкости и других физических возможностей роботов возрастает вероятность, что людям придётся работать с ними бок о бок. Если это произойдёт, насколько глубоко машины должны понимать человеческие эмоции, чтобы взаимодействие было успешным?

В недавнем исследовании команда учёных обучила коллаборативных роботов распознавать эмоции людей, учитывая не только мимику, но и ситуационный контекст взаимодействий. Затем в ходе экспериментов с 40 добровольцами исследователи оценили, как способность робота читать эмоции и корректировать на их основе своё поведение влияет на восприятие машины человеком при совместном выполнении задач. Результаты работы, опубликованные 18 мая в журнале IEEE Robotics and Automation Letters, показали, что эмоциональные возможности роботов пока производят ограниченный эффект на людей.

Лидером исследования выступил Сын Чхан Хон в рамках своей дипломной работы в Университете Мельбурна, Австралия. Он отмечает, что вокруг совершенствования физических способностей роботов сейчас много шума, однако это лишь часть общей картины. «Нам нужно внедрять инновации и в том, как роботы взаимодействуют с людьми, а не только в их физических возможностях», — подчёркивает Хон.

Именно это подтолкнуло его глубже изучить эмоциональные аспекты взаимодействия человека и робота. Сначала Хон и его соавторы решили обучить машину считывать человеческие эмоции с помощью визуальной языковой модели (VLM) — технологии, похожей на большие языковые модели наподобие ChatGPT, но способной дополнительно обрабатывать визуальную информацию.

Тонкая настройка VLM для распознавания эмоций

Чтобы обучить VLM, исследователи попросили волонтёров посмотреть видеозаписи, на которых роботы с разной степенью успеха передавали предметы людям, и описать эмоции, которые те выражали. Ключевой момент: размечавшие видео добровольцы могли учитывать более широкий контекст взаимодействий, а не опираться исключительно на выражения лиц героев роликов. К примеру, человек, который задумался и нахмурился, возможно, просто сосредоточен на задаче и вовсе не сердится. Такие контекстуальные факторы, как постукивание пальцами, поджатые губы или иные действия, способны указать на истинную причину нахмуренного вида.

Затем исследователи сравнили свою визуальную модель с традиционной ИИ-системой, которая полагается на стандартный анализ лица и отслеживание объектов — привычный набор при взаимодействии человека и робота. VLM превзошла классический подход. По шкале от 0 (полное несовпадение с эмоцией, которую определили люди-наблюдатели) до 1 (идеальное совпадение) традиционная ИИ-система набрала 0,77, тогда как VLM достигла показателя 0,86.

Хон поясняет: «Я думаю, что VLM гораздо лучше совпала с восприятием людей-наблюдателей, потому что она не просто кратко смотрела на лицо человека, а видела всю сцену целиком: где находится человек, что он делает и как взаимодействует с роботом».

Как персонализированные извинения робота влияют на доверие

Во втором эксперименте команда пригласила 40 добровольцев для взаимодействия с роботом под управлением VLM, однако целенаправленно запрограммировала машину на совершение ошибки. После этого робот должен был либо принести эмоционально адаптивные извинения с учётом реакции человека на промах, либо произнести заготовленный заранее устный шаблон.

Участники подавляющим большинством предпочли эмоционально отзывчивый вариант: 31 из 40 человек оценили такой подход выше, чем стандартную формулировку извинений.

Однако ответы анкетирования подчеркнули, что эмоциональная адаптивность оказалась значительно менее важна, чем функциональность робота. После совместной работы с машиной, провалившей задачу, многие участники понизили уровень доверия к роботу, независимо от того, как именно он извинился за ошибку. «Персонализированные извинения действуют как социальная смазка, но не могут восстановить доверие, подорванное тем, что робот не справился с физической задачей», — делится выводом Хон.

VLM как хороший наблюдатель, но не телепат

Любопытно, что визуальная модель классифицировала эмоции партнёров-людей сходным образом с волонтёрами, наблюдавшими за взаимодействием со стороны. Но когда оценки VLM сопоставили с самоотчётами людей об их эмоциональном состоянии во время второго эксперимента — а это наиболее точное описание подлинных переживаний, — способность модели верно предсказывать эмоции заметно упала.

«VLM — хороший наблюдатель внешних социальных сигналов, но она не читает мысли, — говорит Хон. — Она хорошо совпала с оценками сторонних людей-наблюдателей, но далеко не всегда совпадала с внутренними, сообщёнными самими испытуемыми чувствами».

В совокупности эти результаты демонстрируют, что роботы далеки от идеального чтения человеческих эмоций. И хотя люди могут ценить старания машины, в конечном счёте им по-прежнему нужны компетентные напарники по работе.