Роботов обучили считывать эмоции с помощью визуальных ИИ-моделей

Учёные обучили коллаборативных роботов распознавать эмоции людей с помощью визуальной языковой модели (VLM), которая учитывает мимику и контекст взаимодействия. Эксперименты показали, что VLM превосходит традиционные системы анализа лиц, но персонализированные извинения не восстанавливают утраченное из-за ошибок доверие — люди больше ценят функциональность машины, чем её эмоциональную отзывчивость.

Эмоциональный интеллект для коллаборативных роботов

По мере роста ловкости и других физических возможностей роботов возрастает вероятность, что людям придётся работать с ними бок о бок. Если это произойдёт, насколько глубоко машины должны понимать человеческие эмоции, чтобы взаимодействие было успешным?

В недавнем исследовании команда учёных обучила коллаборативных роботов распознавать эмоции людей, учитывая не только мимику, но и ситуационный контекст взаимодействий. Затем в ходе экспериментов с 40 добровольцами исследователи оценили, как способность робота читать эмоции и корректировать на их основе своё поведение влияет на восприятие машины человеком при совместном выполнении задач. Результаты работы, опубликованные 18 мая в журнале IEEE Robotics and Automation Letters, показали, что эмоциональные возможности роботов пока производят ограниченный эффект на людей.

Лидером исследования выступил Сын Чхан Хон в рамках своей дипломной работы в Университете Мельбурна, Австралия. Он отмечает, что вокруг совершенствования физических способностей роботов сейчас много шума, однако это лишь часть общей картины. «Нам нужно внедрять инновации и в том, как роботы взаимодействуют с людьми, а не только в их физических возможностях», — подчёркивает Хон.

Именно это подтолкнуло его глубже изучить эмоциональные аспекты взаимодействия человека и робота. Сначала Хон и его соавторы решили обучить машину считывать человеческие эмоции с помощью визуальной языковой модели (VLM) — технологии, похожей на большие языковые модели наподобие ChatGPT, но способной дополнительно обрабатывать визуальную информацию.

Тонкая настройка VLM для распознавания эмоций

Чтобы обучить VLM, исследователи попросили волонтёров посмотреть видеозаписи, на которых роботы с разной степенью успеха передавали предметы людям, и описать эмоции, которые те выражали. Ключевой момент: размечавшие видео добровольцы могли учитывать более широкий контекст взаимодействий, а не опираться исключительно на выражения лиц героев роликов. К примеру, человек, который задумался и нахмурился, возможно, просто сосредоточен на задаче и вовсе не сердится. Такие контекстуальные факторы, как постукивание пальцами, поджатые губы или иные действия, способны указать на истинную причину нахмуренного вида.

Затем исследователи сравнили свою визуальную модель с традиционной ИИ-системой, которая полагается на стандартный анализ лица и отслеживание объектов — привычный набор при взаимодействии человека и робота. VLM превзошла классический подход. По шкале от 0 (полное несовпадение с эмоцией, которую определили люди-наблюдатели) до 1 (идеальное совпадение) традиционная ИИ-система набрала 0,77, тогда как VLM достигла показателя 0,86.

Хон поясняет: «Я думаю, что VLM гораздо лучше совпала с восприятием людей-наблюдателей, потому что она не просто кратко смотрела на лицо человека, а видела всю сцену целиком: где находится человек, что он делает и как взаимодействует с роботом».

Как персонализированные извинения робота влияют на доверие

Во втором эксперименте команда пригласила 40 добровольцев для взаимодействия с роботом под управлением VLM, однако целенаправленно запрограммировала машину на совершение ошибки. После этого робот должен был либо принести эмоционально адаптивные извинения с учётом реакции человека на промах, либо произнести заготовленный заранее устный шаблон.

Участники подавляющим большинством предпочли эмоционально отзывчивый вариант: 31 из 40 человек оценили такой подход выше, чем стандартную формулировку извинений.

Однако ответы анкетирования подчеркнули, что эмоциональная адаптивность оказалась значительно менее важна, чем функциональность робота. После совместной работы с машиной, провалившей задачу, многие участники понизили уровень доверия к роботу, независимо от того, как именно он извинился за ошибку. «Персонализированные извинения действуют как социальная смазка, но не могут восстановить доверие, подорванное тем, что робот не справился с физической задачей», — делится выводом Хон.

VLM как хороший наблюдатель, но не телепат

Любопытно, что визуальная модель классифицировала эмоции партнёров-людей сходным образом с волонтёрами, наблюдавшими за взаимодействием со стороны. Но когда оценки VLM сопоставили с самоотчётами людей об их эмоциональном состоянии во время второго эксперимента — а это наиболее точное описание подлинных переживаний, — способность модели верно предсказывать эмоции заметно упала.

«VLM — хороший наблюдатель внешних социальных сигналов, но она не читает мысли, — говорит Хон. — Она хорошо совпала с оценками сторонних людей-наблюдателей, но далеко не всегда совпадала с внутренними, сообщёнными самими испытуемыми чувствами».

В совокупности эти результаты демонстрируют, что роботы далеки от идеального чтения человеческих эмоций. И хотя люди могут ценить старания машины, в конечном счёте им по-прежнему нужны компетентные напарники по работе.

Визуальные модели языка научили роботов считывать эмоции человека

Эмоциональный интеллект для коллаборативных роботов

Тонкая настройка VLM для распознавания эмоций

Как персонализированные извинения робота влияют на доверие

VLM как хороший наблюдатель, но не телепат

Горячее

Тепловизоры и ИИ спасают серых китов в заливе Сан-Франциско

TCS и Anthropic выводят Claude в регулируемые отрасли

Anthropic назначает КиЮнга Чоя главой корейского подразделения и открывает офис в Сеуле

Визуальные модели языка научили роботов считывать эмоции человека

Как спин-офф Google DeepMind находит скрытые мишени для лекарств

Сейчас в тренде