Исследователи из T-Bank AI Research, ИТМО и центра робототехники «Сбера» разработали метод точной визуальной локализации по одному изображению
Исследователи T-Bank AI Research совместно с лабораторией BE2R ИТМО и центром робототехники «Сбера» представили GSplatLoc — метод визуальной локализации, который по одному RGB-кадру (со смартфона или робота) определяет положение камеры с точностью до сантиметров, а ориентацию — до градусов.
Метод сочетает классическое сопоставление ключевых точек с визуальной (фотометрической) оптимизацией на основе 3D Gaussian Splatting (3DGS) — «быстрого» трехмерного представления сцены, и работает в реальном времени в трех режимах качества работы.
Разработка была отмечена мировым научным сообществом: работа принята в секцию устных докладов (oral) на международной конференции уровня А по интеллектуальным роботам и системам (IROS 2025), которая прошла с 19 по 25 октября 2025 года в Ханчжоу (Китай).
GSplatLoc снижает требования к аппаратуре: для надежной локализации достаточно обычной RGB-камеры. Это позволяет частично отказаться от лидаров и глубинных сенсоров (RGB-D, Time-of-Flight (ToF)), снижая стоимость роботов и AR-устройств. Примеры: робототехника (в ТЦ и на складах): вместо связки «лидар + камера + IMU» во многих случаях достаточно камеры и IMU (акселерометр/гироскоп); AR-навигация в зданиях: достаточно камеры смартфона и заранее подготовленной 3DGS-карты, без специальных маркеров или RGB-D; путь к семантике и агентам: встроенные признаки в 3D-представлении создают основуу для дальнейшей интеграции с семантическими и языковыми модулями, что полезно для автономных агентов и интеллектуальных ассистентов.
Новый метод состоит из двух стадий.
Моделирование сцены (подготовка, выполняется один раз).
Из набора изображений пространства с известными позами камер строится 3DGS-представление: сцена описывается набором трёхмерных «пятен» (гауссиан), что позволяет быстро рендерить изображение. Для каждого исходного кадра предобученная модель находит ключевые точки и извлекает для них дескрипторы — компактные числовые «отпечатки» заметных мест. Затем в ходе обучения мы встраиваем (дистиллируем) эти дескрипторы в параметры 3D-гауссиан: обучаем представление так, чтобы при рендеринге с соответствующих поз синтезированное изображение сцены максимально совпадало с исходными кадрами — не только по цвету и геометрии, но и по тем самым «отпечаткам». Иначе говоря, 3D-представление получает встроенную «память для поиска» соответствий. (В обычном 3DGS по умолчанию сохраняется лишь цвет — RGB.)
Оценка позы нового изображения (использование, в реальном времени).
Для каждого входного кадра решается задача однокадровой абсолютной релокализации в заранее подготовленной 3DGS-карте (это не SLAM, который строит карту и трекает позу по видеопотоку). Процесс включает две подстадии: грубая поза по сопоставлению 2D-ключевых точек с 3D-моделью с учётом «встроенных» дескрипторов (далее — стандартный расчёт положения камеры); уточнение позы за счёт визуальной подстройки (фотометрической оптимизации): сравниваются расхождения между реальным снимком и синтезированным изображением, сгенерированным тем же 3DGS-представлением сцены.
Такое разделение — подготовка один раз → использование многократно — обеспечивает работу в реальном времени и стабильную сантиметровую точность на практике.
В GSplatLoc добавили два ключевых решения: во-первых, дистилляция дескрипторов ключевых точек в параметры 3D-гауссиан на стадии построения представления сцены, а во-вторых, использование 3DGS как основы для быстрой визуальной оптимизации. В отличие от классических structure-based подходов (SIFT/ORB/SuperPoint + PnP/RANSAC), сильно зависящих от качества совпадений и текстуры сцены, и от нейросетевых регрессоров позы/координат сцены, хуже масштабируемых на большие уличные локации, GSplatLoc сочетает надёжное 2D–3D сопоставление с фотометрическим уточнением позы в реальном времени на «быстром» дифференцируемом рендерере 3DGS. Это дает несколько практических преимуществ: дистилляция признаков в 3D-гауссианы превращает 3D-представление в поисковую базу для соответствий между 2D-ключевыми точками на изображении и 3D-гауссианами; использование 3DGS значительно ускоряет обучение и применение (инференс) по сравнению с неявными нейросетевыми представлениями (NeRF), что упрощает масштабирование на большие и динамичные уличные сцены; предложены три режима работы — «грубый», «базовый» и «точный», — позволяющие настраивать баланс между скоростью и точностью под конкретное железо и задачу.
Результаты на бенчмарках подтверждают эффективность: в помещениях (7-Scenes) метод показал state-of-the-art среди подходов на базе нейронного рендеринга — со средней ошибкой по положению в пределах нескольких сантиметров и по ориентации – около 1°; на уличных сценах (Cambridge Landmarks) — наилучшее качество среди сравниваемых методов, со средней ошибкой порядка десятков сантиметров и около 1° по ориентации. GSplatLoc устойчив к сложным динамичным условиям (движущиеся люди, стеклянные поверхности, зеркала). Время обработки одного кадра в трех режимах: «грубый» — ≈ 0,2 с, «базовый» — ≈ 0,8 с, «точный» — ≈ 2,0 с.
Руслан Рахимов, руководитель научной группы CV Research, T-Bank AI Research, сказал: «Представьте робота-курьера, который доставляет еду в большом торговом центре. Обычные навигационные системы, вроде GPS, внутри зданий не работают или дают ошибку в несколько метров –робот может запутаться в коридорах или не найти нужный магазин. Метод GSplatLoc позволяет роботу «видеть» окружение и точно определять, где он находится, с точностью до сантиметра. Он сравнивает изображение с камеры со своей 3D-картой и моментально уточняет позицию. Робот быстро находит маршрут даже в залах с движущимися людьми, стеклянными дверями и зеркалами. Технология также может использоваться в AR-очках — например, чтобы точно накладывать виртуальные указатели или навигацию на реальное пространство».
GSplatLoc демонстрирует, что быстрые 3D-представления в сочетании с классическими 2D–3D сопоставлениями обеспечивают практичную, быструю и точную локализацию из одного RGB-кадра. Это снижает требования к сенсорике (до конфигураций «камера» или «камера+IMU») и позволяет масштабировать решения для робототехники и AR-сервисов в реальных условиях.
Заполните форму и получите коммерческое предложение
прямо сейчас!