Perch 2.0 распознаёт китовые звуки после птиц

Щебет, трели и modulированные звуки птиц разлетаются по воздуху, а под водой вибрируют китовые boings, biotwangs и свисты. Разные акустические сигналы и среды передачи не помешали модели Perch 2.0 от Google DeepMind классифицировать как птичьи песни, так и вокализации китов.

Базовая модель для биоакустики Perch 2.0 прошла обучение на миллионах аудиозаписей птиц и прочих наземных животных, в том числе амфибий, насекомых и млекопитающих. Команда удивилась отличным результатам при адаптации под китов.

Специалисты Google DeepMind и Google Research изучают биоакустику китов почти десять лет. Среди достижений – алгоритмы обнаружения зовов горбатых китов и свежая мультивидовая модель, определяющая восемь видов и несколько типов сигналов для двух из них. Выпуск Perch 2.0 подтолкнул к переиспользованию модели ради сокращения вычислений и экспериментов.

«Если Perch 2.0 подходит для задач с китами, то нет нужды создавать отдельную модель – достаточно доработать существующую», – отмечает Лорен Харрелл, дата-сайентист Google Research.

Переносное обучение в биоакустике

Идею подтверждает переносное обучение: навыки из одной задачи применяются к близкой другой. У Perch 2.0 классификация птичьих зовов переходит на китовые. С базовой моделью используют готовое обучение, добавляя лишь финальный слой под нужды, поясняет Харрелл. «Мы постоянно открываем новые типы зовов и изучаем подводные шумы. Океан полон загадок, так что фиксированная модель не подойдёт».

Команда проверила Perch 2.0 на трёх наборах морских аудио с китовыми и другими водными звуками. Каждое 5-секундное окно превратили в спектрограмму – изображение интенсивности по частотам во времени. Модель выдала эмбеддинги: наборы признаков, сохраняющие ключевые черты для различения, скажем, свистов горбатого кита и косатки.

Далее случайно брали от 4 до 32 эмбеддингов на датасет для обучения логистической регрессии – линейной модели для категориальных исходов. Подробности в статье, представленной на воркшопе NeurIPS по ИИ для коммуникации нелокальных животных в декабре. Классификатор справлялся даже с минимумом примеров, точность росла с их числом.

Сравнили с эмбеддингами от птичьих биоакустических моделей, мультивидовой китовой, а также от других животных и шумов коралловых рифов. Perch 2.0 оказалась лучшей или второй, птичьи модели тоже показали себя хорошо.

Эволюционные сходства в вокализациях

Почему модели на птичьих звуках годятся для китообразных? Харрелл и коллеги выдвигают трёхчастную гипотезу.

Во-первых, эволюционные сходства: птицы и морские млекопитающие могли развить похожие механизмы производства звуков.

Во-вторых, масштабные законы: крупные модели на огромных разнообразных данных справляются даже с узкими задачами вне домена.

В-третьих, распознавание птичьих сигналов сложно, модель выучивает детальные акустические черты, полезные для родственных задач. «Мы учим модель ловить мелкие детали в звуковых ландшафтах», – говорит Харрелл. «Если эти черты близки подводной акустике, модель находит их в вокализациях животных».

Свисты популяций косаток, например, попадают в спектральный диапазон многих птичьих звуков, добавляет Харрелл. «Птицы, амфибии и млекопитающие тоже издают низкочастотные сигналы, модель чутка к динамике – и это работает под водой».

Как Perch 2.0 помогает охранять птиц, так команда Google рассчитывает использовать её для защиты китов пассивным акустическим мониторингом и разгадки знаний этих древних обитателей океана.

ИИ на птичьих трелях распознаёт китовые сигналы

Переносное обучение в биоакустике

Эволюционные сходства в вокализациях

Горячее

Возможности OpenCode + Ollama + Qwen3-Coder локально

Краткий курс по ComfyUI для новичков

5 открытых ИИ-моделей для редактирования изображений

Amazon раздаёт Kiro Pro+ стартапам, чтобы раскачать ИИ для кодинга

Генератор видео ChatUp AI без цензуры: ключевые возможности

Сейчас в тренде