Универсальная биоакустическая модель от Google DeepMind, которую в основном обучали на звуках птиц, превосходит специализированные системы для распознавания китовых вокализаций. Объяснение этому феномену лежит в эволюционной биологии.
Под водой визуальный контакт часто невозможен, поэтому учёные изучают поведение китов и дельфинов только по их звукам. Создать надёжные ИИ-классификаторы для подводной акустики сложно. Сбор данных требует дорогого оборудования, а исследователи отмечают, что новые звуки иногда связывают с конкретным видом лишь через десятилетия после записи.
Специалисты из Google DeepMind и Google Research в статье демонстрируют альтернативный подход. Их модель Perch 2.0, в основном обученная на птичьих криках, почти всегда опережает конкурентов в классификации китовых песен, включая модель Google, заточенную под китов.
Модель на птицах точнее отличает китов
Модель Perch 2.0 с 101,8 миллиона параметров прошла обучение на 1,5 миллиона записях звуков животных от минимум 14 500 видов. Основная часть данных — птичьи вокализации, плюс насекомые, млекопитающие и амфибии. Подводных записей почти нет: в датасете всего около дюжины китовых аудио, в основном снятых смартфонами над водой.
Чтобы проверить работу на подводных задачах, авторы применили три морских датасета. Один включает разных усатых китов из Тихого океана (NOAA PIPAN), второй — рифовые шумы вроде потрескивания и рычания (ReefSet), третий — свыше 200 000 помеченных звуков косаток и горбатых китов (DCLDE 2026).
Модель создаёт компактное числовое представление — эмбеддинг — для каждой записи. На этих эмбеддингах с минимальным числом помеченных примеров дообучают простой классификатор, который относит звуки к нужным видам.

Специализированный китовий ИИ уступает универсальной модели
Авторы сравнили Perch 2.0 с шестью другими системами, включая Google Multispecies Whale Model (GMWM), специально обученную на китах. Качество оценивали по метрике AUC-ROC: значение 1,0 означает идеальное разделение классов.
Perch 2.0 заняла первое или второе место почти во всех тестах. При разделении подвидов косаток по звукам она набрала 0,945, а китовая модель — лишь 0,821. На классификации подводных звуков Perch 2.0 достигла 0,977 против 0,914 у GMWM — и это при 16 примерах обучения на категорию.

Разрыв усиливается, если GMWM применять напрямую как готовый классификатор без дообучения через трансфер-лернинг. Тогда её показатель падает до 0,612. Вероятно, модель переобучилась на конкретные микрофоны или другие артефакты данных. В итоге узкая специализация мешает обобщению.
Урок выпери в биоакустике
Авторы приводят три причины такого переноса знаний между доменами. Во-первых, действуют законы масштабирования нейросетей: большие модели на огромных датасетах лучше обобщают даже на чужие задачи.
Во-вторых, так называемый «урок выпери» — отсылка к птице выпрь (bittern) и известному «горькому уроку» в ИИ. Распознавание птиц особенно сложно из-за минимальных отличий между видами. Только в Северной Америке 14 видов голубей с едва уловимыми нюансами воркования. Модель, которая ловит такие тонкости, выучивает акустические черты, полезные и для иных задач.
В-третьих, связь через эволюционную биологию: птицы и морские млекопитающие независимо эволюционировали похожие механизмы звукопроизводства — миоэластически-аэродинамический процесс. Общая физическая основа объясняет лёгкий трансфер акустических признаков между группами животных.
Быстрые классификаторы для открытий в морской биоакустике
Практическая ценность — в «гибком моделировании». Пассивные акустические данные хранят в векторной базе, а линейные классификаторы на предвычисленных эмбеддингах обучают за часы. Это важно, ведь в морской биоакустике постоянно находят новые звуки. Например, загадочный «биотванг» недавно приписали китам Брайда.
Google выложил полный туториал в Google Colab и открыл инструменты на GitHub.
Ранее Google в 2024 году представил Multi-Species Whale Model для детекции нескольких видов китов. Perch 2.0 вышла в августе 2025-го как более широкая базовая модель биоакустики.