Кольца с ИИ переводят язык жестов в текст
Новое исследование показывает, что электронные кольца, беспроводно связанные с системой искусственного интеллекта, способны переводить несколько жестовых языков в текст. «Я считаю, что это важный шаг к тому, чтобы сделать системы перевода жестового языка более практичными, лёгкими и пригодными для использования в реальных условиях», — говорит Ки Джун Ю, доцент кафедры электротехники и электроники Университета Ёнсе в Корее.
Проблемы существующих решений
В мире используется более 300 различных жестовых языков, и многие исследовательские проекты разрабатывают устройства для общения с людьми, не владеющими языком жестов. Однако эти проекты сталкиваются с серьёзными трудностями.
Например, в некоторых проектах применялись камеры и алгоритмы компьютерного зрения для распознавания жестов рук. Но такие системы обычно работали только в контролируемой среде с фиксированными камерами и были чувствительны к изменениям освещения и другим помехам.
Другие устройства использовали носимые датчики, которые фиксировали движения рук или электрические сигналы, связанные с мышечной активностью. Однако распространённый тип носимых датчиков — «умные» перчатки — задерживали тепло и влагу, что делало длительное ношение некомфортным. Кроме того, их фиксированные датчики не учитывали индивидуальные особенности размера кисти, длины пальцев и положения суставов, что снижало точность. Вдобавок носимые датчики часто требовали проводного подключения к компьютеру, ограничивая движения рук. Даже те системы, которые передавали данные по беспроводной связи, всё равно соединяли все датчики с одним передатчиком с помощью проводов.
Удобство без проводов
Теперь учёные создали набор электронных колец, каждое из которых беспроводно передаёт данные о движении на обрабатывающее устройство. Использование колец вместо перчаток позволило гибко размещать датчики с учётом индивидуальных особенностей рук. Беспроводное соединение обеспечивает полную свободу движений.
«Системы на кристалле с Bluetooth Low Energy достигли такого уровня, что целый стек беспроводной связи, схема управления питанием и сенсорный модуль могут поместиться на гибкой подложке, достаточно маленькой, чтобы носить её как кольцо», — объясняет Ю. В новом исследовании учёные изучили, насколько каждый палец участвует в формировании жестов, и обнаружили, что семь пальцев играют основную роль. Поэтому в их системе используется всего семь колец, чтобы уменьшить количество необходимого оборудования.
Каждое кольцо оснащено акселерометрами в качестве инерциальных датчиков. Они способны фиксировать как статичные позы, так и движения рук, что помогает уловить всю сложность жестовых языков, часто включающих переходы между статическими и динамическими компонентами. Кроме того, учёные стремились избежать зависимости от биоэлектрических сигналов, которые сильно индивидуальны и требуют тщательной калибровки для каждого пользователя.
Одной из сложностей при разработке колец стала механическая надёжность. Первоначально исследователи использовали прямые медные соединения, которые почти ломались при многократном изгибании. Они заменили их на соединения змеевидной формы, способные выдерживать постоянное сгибание.
Один ИИ для всех колец
Исследователи также создали систему глубокого обучения для распознавания жестов по движениям рук. Она смогла идентифицировать знаки не только у двух человек, на которых обучалась, но и у пяти человек, не принимавших участия в обучении. Это говорит о том, что новая система может применяться без трудоёмкой адаптации под каждого пользователя.
В экспериментах с пятью новыми участниками система распознала 100 распространённых слов американского жестового языка (ASL) и 100 слов международного жестового языка (ISL) с точностью 88,3% и 88,5% соответственно. Для сравнения, большинство предыдущих попыток создания систем перевода жестовых языков ограничивались словарным запасом менее 50 слов.
«Двести слов — это значительный прогресс по сравнению с предыдущими беспроводными системами, но это всё ещё лишь малая часть полного лексикона жестового языка, который может содержать тысячи знаков, — предостерегает Досик Хван, профессор электротехники и электроники Университета Ёнсе. — Мне хотелось бы быть осторожным, чтобы не преувеличивать возможности текущей системы в открытом словаре и реальном разговоре».
Новая система способна не только распознавать отдельные слова, но и переводить целые предложения из непрерывного потока жестов. Учёные предполагают, что это поможет в обеспечении синхронного перевода.
В долгосрочной перспективе «наша цель — заставить систему работать с повседневными устройствами, такими как смартфоны, без необходимости в специализированном внешнем оборудовании, — говорит Ю. — Кольца могли бы беспроводно передавать сигналы жестового языка на мобильное устройство, где они автоматически переводились бы и отображались в реальном времени. Это сделало бы технологию более портативной, доступной и практичной для повседневного общения».
Однако, «самое важное предостережение таково: наша система переводит движения рук в текст, — отмечает Хван. — Она пока не улавливает лицевую грамматику, артикуляцию, положение тела или пространственный синтаксис, которые грамматически значимы в жестовых языках». Будущая задача заключается в том, чтобы «интегрировать эти элементы в бесшовную, малопотребляющую архитектуру, сохраняя ненавязчивость текущего дизайна», добавляет Ю.
Дальнейшие планы и перспективы
В ближайших планах учёных — обучить систему с участием большего числа людей, расширить словарный запас, добавить больше стилей жестикуляции и региональных диалектов. «Учитывая наши институциональные корни, корейский жестовый язык — естественный следующий шаг», — говорит Ю. Исследователи также надеются продлить время автономной работы колец с нынешних почти 12 часов до целого дня благодаря дальнейшей миниатюризации и оптимизации энергопотребления. «Ключевой приоритет — перенос вычислительного конвейера с внешнего оборудования (например, ноутбука) на бортовые вычисления (например, в смартфон). Этот переход важен не только для настоящей мобильности, но и для обеспечения конфиденциальности пользователей и снижения задержек в естественном разговоре».
Хван и его коллеги планируют сотрудничать с организациями сообщества глухих для разработки своих устройств: «Мы верим, что технология значительно улучшится как по функциональности, так и по социальной интеграции, если к её созданию привлечь тех, кто будет ею пользоваться».
Не только язык жестов
Помимо перевода жестового языка, новые кольца могут найти применение в других приложениях, управляемых жестами. «Мы видим непосредственный потенциал этой технологии в мониторинге реабилитации рук, оценке мелкой моторики при неврологических заболеваниях и даже в иммерсивных интерфейсах виртуальной и дополненной реальности», — объясняет Хван. «Доказав эффективность в сложной области жестовых языков, мы, по сути, протестировали систему на прочность для широкого спектра будущих биомедицинских и интерактивных приложений».
Свои результаты учёные подробно описали 1 мая в журнале Science Advances.