На протяжении десятилетий расшифровка щелчков, свистов и импульсных последовательностей дельфинов оставалась одним из вызовов для науки. Что, если бы мы могли не только слушать этих морских млекопитающих, но и понимать паттерны их сложной коммуникации настолько хорошо, чтобы генерировать реалистичные ответы?
В Национальный день дельфинов Google совместно с исследователями из Технологического института Джорджии и полевой работой проекта Wild Dolphin Project анонсирует прогресс в разработке DolphinGemma — фундаментальной модели искусственного интеллекта, обученной распознавать структуру вокализаций дельфинов и генерировать новые звуковые последовательности, похожие на дельфиньи. Этот подход в поиске межвидовой коммуникации расширяет границы ИИ и нашего потенциального соединения с морским миром.
Десятилетия исследований дельфиньего общества
Понимание любого вида требует глубокого контекста, и именно это обеспечивает проект Wild Dolphin Project. С 1985 года WDP ведет самый продолжительный в мире подводный исследовательский проект по изучению дельфинов, наблюдая за конкретным сообществом диких атлантических пятнистых дельфинов (Stenella frontalis) на Багамах на протяжении нескольких поколений. Этот неинвазивный подход «В их мире, на их условиях» дает богатый уникальный набор данных: десятилетия подводного видео и аудио, тщательно сопоставленные с индивидуальными идентификаторами дельфинов, историями их жизни и наблюдаемым поведением.
Основное внимание WDP уделяет наблюдению и анализу естественной коммуникации и социальных взаимодействий дельфинов. Работа под водой позволяет исследователям непосредственно связывать звуки с конкретным поведением способами, недоступными при наблюдении с поверхности. На протяжении десятилетий они коррелировали типы звуков с поведенческими контекстами. Вот некоторые примеры:
- Сигнатурные свисты (уникальные имена), используемые матерями и детенышами для воссоединения
- Импульсные «скрипы», часто наблюдаемые во время драк
- Щелкающие «жужжания», часто используемые во время ухаживаний или преследования акул
Знание индивидуальных дельфинов имеет решающее значение для точной интерпретации. Конечная цель этой наблюдательной работы — понять структуру и потенциальное значение в этих естественных звуковых последовательностях, ища паттерны и правила, которые могут указывать на язык. Этот долгосрочный анализ естественной коммуникации формирует основу исследований WDP и предоставляет essential context для любого анализа с помощью ИИ.
Представляем DolphinGemma
Анализ естественной сложной коммуникации дельфинов — монументальная задача, и обширный размеченный набор данных WDP предоставляет уникальную возможность для передового ИИ.
Вот где появляется DolphinGemma. Разработанная Google, эта модель ИИ использует специфические аудиотехнологии компании: токенизатор SoundStream эффективно представляет звуки дельфинов, которые затем обрабатываются архитектурой модели, подходящей для сложных последовательностей. Эта модель с примерно 400 миллионами параметров оптимально подходит для работы непосредственно на Pixel-телефонах, которые WDP использует в полевых условиях.
Модель основывается на идеях из Gemma, коллекции облегченных современных открытых моделей Google, построенных на основе тех же исследований и технологий, что и наши модели Gemini. Обученная на обширной акустической базе данных диких атлантических пятнистых дельфинов WDP, DolphinGemma функционирует как аудио-входная, аудио-выходная модель, обрабатывает последовательности естественных звуков дельфинов для идентификации паттернов, структуры и в конечном итоге предсказывает вероятные последующие звуки в последовательности, подобно тому, как большие языковые модели для человеческого языка предсказывают следующее слово или токен в предложении.
WDP начинает развертывать DolphinGemma в этом полевом сезоне с непосредственными потенциальными преимуществами. Идентифицируя повторяющиеся звуковые паттерны, кластеры и надежные последовательности, модель может помочь исследователям раскрыть скрытые структуры и потенциальные значения внутри естественной коммуникации дельфинов — задача, ранее требовавшая огромных человеческих усилий. В конечном счете, эти паттерны, дополненные синтетическими звуками, созданными исследователями для обозначения объектов, с которыми дельфины любят играть, могут установить общий словарь с дельфинами для интерактивной коммуникации.
Использование Pixel-телефонов для прослушивания и анализа звуков дельфинов
В дополнение к анализу естественной коммуникации, WDP также преследует отдельный, параллельный путь: исследование потенциального двустороннего взаимодействия с использованием технологий в океане. Эти усилия привели к разработке системы CHAT (Cetacean Hearing Augmentation Telemetry) в партнерстве с Технологическим институтом Джорджии. CHAT — это подводный компьютер, предназначенный не для непосредственной расшифровки сложного естественного языка дельфинов, а для установления более простого общего словаря.
Концепция сначала relies on ассоциировании новых синтетических свистов (созданных CHAT, отличных от естественных звуков дельфинов) с конкретными объектами, которые нравятся дельфинам, такими как саргассум, морская трава или шарфы, используемые исследователями. Демонстрируя систему между людьми, исследователи надеются, что естественно любопытные дельфины научатся имитировать свисты, чтобы запрашивать эти предметы. В конечном счете, по мере того как будет пониматься больше естественных звуков дельфинов, они также могут быть добавлены в систему.
Чтобы обеспечить двустороннее взаимодействие, системе CHAT сначала необходимо:
- Точно услышать имитацию среди океанского шума.
- Идентифицировать, какой свист был имитирован в реальном времени.
- Сообщить исследователю (через костные наушники, работающие под водой), какой объект дельфин «запросил».
- Позволить исследователю быстро ответить, предложив правильный объект, укрепляя связь.
Google Pixel 6 обрабатывал высококачественный анализ звуков дельфинов в реальном времени. Следующее поколение, сосредоточенное вокруг Google Pixel 9 (исследования запланированы на лето 2025 года), builds on эти усилия, интегрируя функции динамика/микрофона и используя передовую обработку телефона для одновременного запуска как моделей глубокого обучения, так и алгоритмов сопоставления шаблонов.
Использование смартфонов Pixel dramatically reduces необходимость в пользовательском оборудовании, улучшает ремонтопригодность системы, снижает энергопотребление и уменьшает стоимость и размер устройства — crucial advantages для полевых исследований в открытом океане. Между тем, предсказательная сила DolphinGemma может помочь CHAT anticipate и идентифицировать потенциальные имитации раньше в последовательности вокализации, увеличивая скорость, с которой исследователи могут реагировать на дельфинов, и делая взаимодействия более плавными и reinforcing.
Предоставление DolphinGemma исследовательскому сообществу
Признавая ценность сотрудничества в научных открытиях, мы планируем поделиться DolphinGemma как открытой моделью этим летом. Хотя обученная на звуках атлантических пятнистых дельфинов, мы anticipate её потенциальную полезность для исследователей, изучающих другие виды китообразных, такие как афалины или длинноклювые дельфины. Для вокализаций разных видов может потребоваться дообучение, и открытая природа модели facilitates эту адаптацию.
Предоставляя инструменты вроде DolphinGemma, мы надеемся дать исследователям по всему миру средства для анализа их собственных акустических наборов данных, ускорить поиск паттернов и коллективно углубить наше понимание этих разумных морских млекопитающих.
Путь к пониманию коммуникации дельфинов долог, но сочетание dedicated полевых исследований WDP, инженерного опыта Технологического института Джорджии и мощи технологий Google открывает захватывающие новые возможности. Мы больше не просто слушаем. Мы начинаем понимать паттерны внутри звуков, прокладывая путь к будущему, где разрыв между человеческой и дельфиньей коммуникацией может стать немного меньше.