Вспышковые наводнения — одна из главных угроз
Вспышковые наводнения входят в число самых смертоносных погодных явлений: ежегодно они уносят жизни более 5 тысяч человек. Предугадать их особенно сложно.
Хотя накоплено множество данных о погоде, такие события развиваются слишком быстро и локально, чтобы их фиксировать так же полно, как температуру или уровень рек. Из-за этого пробела модели глубокого обучения, способные всё точнее прогнозировать погоду, пока не справляются с вспышковыми наводнениями.
Как Gemini превращает новости в данные
Сотрудники Google применили языковую модель Gemini, чтобы разобраться в 5 миллионах новостных публикаций со всего мира. Они выделили упоминания о 2,6 миллиона разных наводнений и преобразовали их в георазмеченный временной ряд под названием Groundsource.
Это первый случай, когда компания задействовала языковые модели для подобной задачи, отметила Gila Loike, менеджер по продуктам Google Research. Исследование и датасет опубликовали публично.
Модель на базе LSTM для прогнозов
С Groundsource в качестве реальной базы исследователи обучили модель на основе нейронной сети Long Short-Term Memory (LSTM). Она анализирует глобальные прогнозы погоды и рассчитывает вероятность вспышковых наводнений в конкретных районах.
Сейчас такая система Google предупреждает об угрозах в городских зонах 150 стран через платформу Flood Hub и передаёт данные службам экстренного реагирования по всему миру. António José Beleza из Южноафриканского сообщества по развитию протестировал модель вместе с Google и отметил, что она ускорила ответ на наводнения.
Ограничения и преимущества подхода
У модели есть слабые стороны: разрешение невысокое — риски определяются по зонам в 20 квадратных километров. Она уступает в точности системе оповещений о наводнениях Национальной метеослужбы США, поскольку не использует локальные радары для отслеживания осадков в реальном времени.
Зато проект создавали специально для регионов, где власти не могут позволить дорогостоящие метеостанции или не ведут подробный учёт погоды.
«Мы собрали миллионы отчётов, и датасет Groundsource помогает уравновесить карту рисков», — объяснила Juliet Rothenberg, менеджер программы команды Resilience в Google. «Это позволяет распространять прогнозы на области с дефицитом данных».
Rothenberg добавила, что метод с языковыми моделями для создания количественных датасетов из текстовых источников можно расширить на другие быстротечные явления, требующие прогноза, — например, волны жары или оползни.
Эксперты о значении новых данных
Marshall Moutenot, глава Upstream Tech — компании, которая применяет похожие модели глубокого обучения для расчёта стока рек для гидроэнергетиков, — считает вклад Google частью общего тренда по сбору данных для ИИ-прогнозов погоды. Moutenot соосновал dynamical.org, где собирают готовые для машинного обучения погодные данные для учёных и стартапов.
«Дефицит данных — одна из ключевых трудностей в геофизике, — сказал Moutenot. — Земных данных вроде бы полно, но для проверки моделей их всегда не хватает. Это креативный способ заполнить пробел».