Новости и статьи об искусственном интеллекте и нейросетях. Мы собираем и обрабатываем самую актуальную информацию из мира AI. О проекте

Новости

Модель DeepMind распознаёт китов по пению птиц

Биоакустическая модель Perch 2.0 от Google DeepMind, обученная в основном на звуках птиц, лучше специализированных систем распознаёт китовые вокализации. Это достижение объясняют масштабами данных, сложностью птичьих звуков и эволюционными сходствами. Такой подход ускоряет анализ новых морских открытий.

14 февраля 2026 г.
4 мин
30

Универсальная биоакустическая модель от Google DeepMind, которую в основном обучали на звуках птиц, превосходит специализированные системы для распознавания китовых вокализаций. Объяснение этому феномену лежит в эволюционной биологии.

Под водой визуальный контакт часто невозможен, поэтому учёные изучают поведение китов и дельфинов только по их звукам. Создать надёжные ИИ-классификаторы для подводной акустики сложно. Сбор данных требует дорогого оборудования, а исследователи отмечают, что новые звуки иногда связывают с конкретным видом лишь через десятилетия после записи.

Специалисты из Google DeepMind и Google Research в статье демонстрируют альтернативный подход. Их модель Perch 2.0, в основном обученная на птичьих криках, почти всегда опережает конкурентов в классификации китовых песен, включая модель Google, заточенную под китов.

Модель на птицах точнее отличает китов

Модель Perch 2.0 с 101,8 миллиона параметров прошла обучение на 1,5 миллиона записях звуков животных от минимум 14 500 видов. Основная часть данных — птичьи вокализации, плюс насекомые, млекопитающие и амфибии. Подводных записей почти нет: в датасете всего около дюжины китовых аудио, в основном снятых смартфонами над водой.

Чтобы проверить работу на подводных задачах, авторы применили три морских датасета. Один включает разных усатых китов из Тихого океана (NOAA PIPAN), второй — рифовые шумы вроде потрескивания и рычания (ReefSet), третий — свыше 200 000 помеченных звуков косаток и горбатых китов (DCLDE 2026).

Модель создаёт компактное числовое представление — эмбеддинг — для каждой записи. На этих эмбеддингах с минимальным числом помеченных примеров дообучают простой классификатор, который относит звуки к нужным видам.

Семь диаграмм рассеяния, показывающих кластеризацию звуков косаток от пяти подвидов разными биоакустическими моделями. Perch 2.0 и BirdNet v2.3 формируют чётко разделённые цветные кластеры, в то время как Google Multispecies Whale Model даёт сильно перемешанные облака точек.
Разные модели классифицируют звуки косаток от пяти подвидов. Чем чётче разделяются цветные группы, тем лучше модель различает популяции. Специализированная китовая модель (слева сверху) размывает группы, а Perch 2.0 и BirdNet разделяют их отчётливо. Автор изображения: Google

Специализированный китовий ИИ уступает универсальной модели

Авторы сравнили Perch 2.0 с шестью другими системами, включая Google Multispecies Whale Model (GMWM), специально обученную на китах. Качество оценивали по метрике AUC-ROC: значение 1,0 означает идеальное разделение классов.

Perch 2.0 заняла первое или второе место почти во всех тестах. При разделении подвидов косаток по звукам она набрала 0,945, а китовая модель — лишь 0,821. На классификации подводных звуков Perch 2.0 достигла 0,977 против 0,914 у GMWM — и это при 16 примерах обучения на категорию.

Пять линейных графиков с баллами AUC-ROC для семи биоакустических моделей на морских датасетах при росте объёма обучающих примеров. Perch 2.0 стабильно показывает высшие или вторые высшие результаты, а Google Multispecies Whale Model заметно отстаёт.
Perch 2.0 (чёрная линия) лидирует в большинстве морских задач классификации, а специализированная китовая модель (пунктирная синяя линия) часто даёт худшие результаты. Автор изображения: Google

Разрыв усиливается, если GMWM применять напрямую как готовый классификатор без дообучения через трансфер-лернинг. Тогда её показатель падает до 0,612. Вероятно, модель переобучилась на конкретные микрофоны или другие артефакты данных. В итоге узкая специализация мешает обобщению.

Урок выпери в биоакустике

Авторы приводят три причины такого переноса знаний между доменами. Во-первых, действуют законы масштабирования нейросетей: большие модели на огромных датасетах лучше обобщают даже на чужие задачи.

Во-вторых, так называемый «урок выпери» — отсылка к птице выпрь (bittern) и известному «горькому уроку» в ИИ. Распознавание птиц особенно сложно из-за минимальных отличий между видами. Только в Северной Америке 14 видов голубей с едва уловимыми нюансами воркования. Модель, которая ловит такие тонкости, выучивает акустические черты, полезные и для иных задач.

В-третьих, связь через эволюционную биологию: птицы и морские млекопитающие независимо эволюционировали похожие механизмы звукопроизводства — миоэластически-аэродинамический процесс. Общая физическая основа объясняет лёгкий трансфер акустических признаков между группами животных.

Быстрые классификаторы для открытий в морской биоакустике

Практическая ценность — в «гибком моделировании». Пассивные акустические данные хранят в векторной базе, а линейные классификаторы на предвычисленных эмбеддингах обучают за часы. Это важно, ведь в морской биоакустике постоянно находят новые звуки. Например, загадочный «биотванг» недавно приписали китам Брайда.

Google выложил полный туториал в Google Colab и открыл инструменты на GitHub.

Ранее Google в 2024 году представил Multi-Species Whale Model для детекции нескольких видов китов. Perch 2.0 вышла в августе 2025-го как более широкая базовая модель биоакустики.