GeoVista: open-source ИИ для геолокации почти сравнялся с коммерческими аналогами

GeoVista: открытая модель для точной геолокации изображений

Китайские исследователи представили GeoVista — открытую модель ИИ, которая определяет местоположение на фотографиях, комбинируя анализ изображения с живыми веб-поисками. Разработка ставит целью достичь уровня коммерческих решений, таких как Gemini 2.5 Flash.

Созданная совместно Tencent и несколькими китайскими университетами, модель использует два основных инструмента. Функция зумирования позволяет рассмотреть отдельные участки изображения детально, а поисковый модуль подключается к платформам вроде TripAdvisor, Instagram, Facebook, Pinterest и Wikipedia, чтобы собрать до десяти релевантных источников. GeoVista самостоятельно решает, когда применять каждый инструмент.

Преимущество веб-поиска в реальном времени

Исследователи выделяют интеграцию веб-поиска как ключевое преимущество GeoVista перед существующими методами. В отличие от моделей вроде Mini-o3 или DeepEyes от ByteDance, которые концентрируются на обработке изображений, GeoVista активно ищет информацию во внешних источниках. В статье не уточняется, какой именно поисковый провайдер используется системой.

Коллаж глобальных изображений GeoBench вместе с блок-схемой GeoVista Agentic Pipeline — GeoVista последовательно увеличивает участки изображения и запрашивает данные онлайн до тех пор, пока не определит точное местоположение. | Image: Wang et al.

Основой для GeoVista стал Qwen2.5-VL-7B-Instruct. Модель обучали в два этапа. На первом этапе — под контролем — модель освоила базовые навыки рассуждений и работы с инструментами на основе 2000 специально подготовленных примеров. Коммерческие ИИ-модели генерировали вызовы инструментов и их обоснования, которые исследователи объединили в многоуровневые цепочки рассуждений.

Два этапа обучения повышают точность

На втором этапе обучение с подкреплением оттачивало эти навыки с использованием 12 000 примеров. Специальная система вознаграждений делала акцент на географической точности: правильные ответы на уровне города получали больше баллов по сравнению с ответами на уровне провинции или страны.

Открытые модели догоняют проприетарные решения

На тестовом наборе данных GeoBench модель показала точность 92,64% на уровне страны, 79,6% — региона и 72,68% — города. Лучше всего она работает с панорамными снимками (79,49% точности) и стандартными фотографиями (72,27%), тогда как спутниковые изображения остаются самыми сложными (всего 44,92%).

Таблица точности моделей на GeoBench — GeoVista-7B превосходит другие open-source модели на GeoBench и приближается к уровню топовых проприетарных систем на городском уровне, особенно с панорамными изображениями. | Image: Wang et al.

Для сравнения: Gemini 2.5 Pro показал результат 78,98%, GPT-5 — 67,11%, а Gemini 2.5 Flash — 73,29%. Среди открытых решений конкуренты заметно уступают: Mini-o3-7B достиг всего 11,3%. Возможно, новые результаты даст недавно анонсированный Gemini 3.

Точность определения координат

При оценке по расстоянию 52,83% предсказаний GeoVista попали в радиус трех километров от реального местоположения со средним отклонением 2,35 км. У Gemini 2.5 Pro этот показатель составил 64,45% со средним отклонением в восемьсот метров; GPT-5 продемонстрировал результат в 55,12% при среднем отклонении около полутора километров.

Тесты подтвердили важность обоих этапов обучения: без начального обучения под контролем производительность резко снижалась из-за слишком коротких ответов и ошибок использования инструментов.

Показательно также снижение ошибок при использовании инструментов во время обучения с подкреплением — даже без целевой оптимизации этого параметра. Эффективность модели росла вместе с объемом данных: тесты с выборками размером 1500–12 000 примеров показали стабильный прогресс.

Новый бенчмарк исключает простые случаи

Вместе с моделью исследователи представили набор данных GeoBench — коллекцию из 1142 высококачественных изображений из шестидесяти шести стран и ста восьми городов. Он включает по пятьсот двенадцать стандартных фото и панорамных снимков плюс сто восемь спутниковых изображений разрешением не менее одного миллиона пикселей каждое.

Схема оценки GeoBench — Процесс проверки сверяет названия страны региона и города перед автоматическим преобразованием текстовых адресов в координаты для сравнения с эталонными данными. | Image: Wang et al.

GeoBench отличается более строгим отбором по сравнению с другими наборами данных типа OpenStreetView-5M или GeoComp: удалены неопределенные фотографии (например крупные планы еды или общие ландшафты) и легко узнаваемые достопримечательности — ведь реальные интернет-изображения сильно различаются по степени локализуемости.

GeoVista приближает open-source геолокацию к коммерческим моделям

GeoVista: открытая модель для точной геолокации изображений

Преимущество веб-поиска в реальном времени

Два этапа обучения повышают точность

Открытые модели догоняют проприетарные решения

Точность определения координат

Новый бенчмарк исключает простые случаи

Горячее

5 лёгких и безопасных альтернатив OpenClaw для ИИ-агентов

Claude Cowork уязвим к краже файлов

Знакомство со Stickerbox: ИИ для детских стикеров

Топ-7 планов для вайб-кодинга

Топ-5 API-провайдеров открытых ИИ-моделей

Сейчас в тренде