GeoVista: открытая модель для точной геолокации изображений
Китайские исследователи представили GeoVista — открытую модель ИИ, которая определяет местоположение на фотографиях, комбинируя анализ изображения с живыми веб-поисками. Разработка ставит целью достичь уровня коммерческих решений, таких как Gemini 2.5 Flash.
Созданная совместно Tencent и несколькими китайскими университетами, модель использует два основных инструмента. Функция зумирования позволяет рассмотреть отдельные участки изображения детально, а поисковый модуль подключается к платформам вроде TripAdvisor, Instagram, Facebook, Pinterest и Wikipedia, чтобы собрать до десяти релевантных источников. GeoVista самостоятельно решает, когда применять каждый инструмент.
Преимущество веб-поиска в реальном времени
Исследователи выделяют интеграцию веб-поиска как ключевое преимущество GeoVista перед существующими методами. В отличие от моделей вроде Mini-o3 или DeepEyes от ByteDance, которые концентрируются на обработке изображений, GeoVista активно ищет информацию во внешних источниках. В статье не уточняется, какой именно поисковый провайдер используется системой.
Основой для GeoVista стал Qwen2.5-VL-7B-Instruct. Модель обучали в два этапа. На первом этапе — под контролем — модель освоила базовые навыки рассуждений и работы с инструментами на основе 2000 специально подготовленных примеров. Коммерческие ИИ-модели генерировали вызовы инструментов и их обоснования, которые исследователи объединили в многоуровневые цепочки рассуждений.
Два этапа обучения повышают точность
На втором этапе обучение с подкреплением оттачивало эти навыки с использованием 12 000 примеров. Специальная система вознаграждений делала акцент на географической точности: правильные ответы на уровне города получали больше баллов по сравнению с ответами на уровне провинции или страны.
Открытые модели догоняют проприетарные решения
На тестовом наборе данных GeoBench модель показала точность 92,64% на уровне страны, 79,6% — региона и 72,68% — города. Лучше всего она работает с панорамными снимками (79,49% точности) и стандартными фотографиями (72,27%), тогда как спутниковые изображения остаются самыми сложными (всего 44,92%).
Для сравнения: Gemini 2.5 Pro показал результат 78,98%, GPT-5 — 67,11%, а Gemini 2.5 Flash — 73,29%. Среди открытых решений конкуренты заметно уступают: Mini-o3-7B достиг всего 11,3%. Возможно, новые результаты даст недавно анонсированный Gemini 3.
Точность определения координат
При оценке по расстоянию 52,83% предсказаний GeoVista попали в радиус трех километров от реального местоположения со средним отклонением 2,35 км. У Gemini 2.5 Pro этот показатель составил 64,45% со средним отклонением в восемьсот метров; GPT-5 продемонстрировал результат в 55,12% при среднем отклонении около полутора километров.
Тесты подтвердили важность обоих этапов обучения: без начального обучения под контролем производительность резко снижалась из-за слишком коротких ответов и ошибок использования инструментов.
Показательно также снижение ошибок при использовании инструментов во время обучения с подкреплением — даже без целевой оптимизации этого параметра. Эффективность модели росла вместе с объемом данных: тесты с выборками размером 1500–12 000 примеров показали стабильный прогресс.
Новый бенчмарк исключает простые случаи
Вместе с моделью исследователи представили набор данных GeoBench — коллекцию из 1142 высококачественных изображений из шестидесяти шести стран и ста восьми городов. Он включает по пятьсот двенадцать стандартных фото и панорамных снимков плюс сто восемь спутниковых изображений разрешением не менее одного миллиона пикселей каждое.
GeoBench отличается более строгим отбором по сравнению с другими наборами данных типа OpenStreetView-5M или GeoComp: удалены неопределенные фотографии (например крупные планы еды или общие ландшафты) и легко узнаваемые достопримечательности — ведь реальные интернет-изображения сильно различаются по степени локализуемости.