Щебет, трели и modulированные звуки птиц разлетаются по воздуху, а под водой вибрируют китовые boings, biotwangs и свисты. Разные акустические сигналы и среды передачи не помешали модели Perch 2.0 от Google DeepMind классифицировать как птичьи песни, так и вокализации китов.
Базовая модель для биоакустики Perch 2.0 прошла обучение на миллионах аудиозаписей птиц и прочих наземных животных, в том числе амфибий, насекомых и млекопитающих. Команда удивилась отличным результатам при адаптации под китов.
Специалисты Google DeepMind и Google Research изучают биоакустику китов почти десять лет. Среди достижений – алгоритмы обнаружения зовов горбатых китов и свежая мультивидовая модель, определяющая восемь видов и несколько типов сигналов для двух из них. Выпуск Perch 2.0 подтолкнул к переиспользованию модели ради сокращения вычислений и экспериментов.
«Если Perch 2.0 подходит для задач с китами, то нет нужды создавать отдельную модель – достаточно доработать существующую», – отмечает Лорен Харрелл, дата-сайентист Google Research.
Переносное обучение в биоакустике
Идею подтверждает переносное обучение: навыки из одной задачи применяются к близкой другой. У Perch 2.0 классификация птичьих зовов переходит на китовые. С базовой моделью используют готовое обучение, добавляя лишь финальный слой под нужды, поясняет Харрелл. «Мы постоянно открываем новые типы зовов и изучаем подводные шумы. Океан полон загадок, так что фиксированная модель не подойдёт».
Команда проверила Perch 2.0 на трёх наборах морских аудио с китовыми и другими водными звуками. Каждое 5-секундное окно превратили в спектрограмму – изображение интенсивности по частотам во времени. Модель выдала эмбеддинги: наборы признаков, сохраняющие ключевые черты для различения, скажем, свистов горбатого кита и косатки.
Далее случайно брали от 4 до 32 эмбеддингов на датасет для обучения логистической регрессии – линейной модели для категориальных исходов. Подробности в статье, представленной на воркшопе NeurIPS по ИИ для коммуникации нелокальных животных в декабре. Классификатор справлялся даже с минимумом примеров, точность росла с их числом.
Сравнили с эмбеддингами от птичьих биоакустических моделей, мультивидовой китовой, а также от других животных и шумов коралловых рифов. Perch 2.0 оказалась лучшей или второй, птичьи модели тоже показали себя хорошо.
Эволюционные сходства в вокализациях
Почему модели на птичьих звуках годятся для китообразных? Харрелл и коллеги выдвигают трёхчастную гипотезу.
Во-первых, эволюционные сходства: птицы и морские млекопитающие могли развить похожие механизмы производства звуков.
Во-вторых, масштабные законы: крупные модели на огромных разнообразных данных справляются даже с узкими задачами вне домена.
В-третьих, распознавание птичьих сигналов сложно, модель выучивает детальные акустические черты, полезные для родственных задач. «Мы учим модель ловить мелкие детали в звуковых ландшафтах», – говорит Харрелл. «Если эти черты близки подводной акустике, модель находит их в вокализациях животных».
Свисты популяций косаток, например, попадают в спектральный диапазон многих птичьих звуков, добавляет Харрелл. «Птицы, амфибии и млекопитающие тоже издают низкочастотные сигналы, модель чутка к динамике – и это работает под водой».
Как Perch 2.0 помогает охранять птиц, так команда Google рассчитывает использовать её для защиты китов пассивным акустическим мониторингом и разгадки знаний этих древних обитателей океана.