Wooseok Song profile photoPaper Reviews

VGGT-SLAM: Dense RGB SLAM Optimized on the SL(4) Manifold

arXiv preprintarXiv v2: 23 May 2025
Authors
Dominic Maggio; Hyungtae Lim; Luca Carlone
Affiliations
Massachusetts Institute of Technology
Topics
#Visual SLAM#Dense SLAM#VGGT#SL(4)#Projective Geometry

핵심 요약

VGGT-SLAM은 VGGT가 만든 local submap을 긴 RGB monocular sequence에 맞게 이어 붙이기 위해, Sim(3)이 아니라 SL(4) homography를 factor graph에서 최적화하는 dense RGB SLAM 시스템이다.

문제긴 RGB sequence에서 VGGT memory 한계
해결SL(4) submap factor graph
근거pose, dense map, loop closure, ablation
한 문장 요약

VGGT-SLAM의 핵심은 VGGT submap 사이의 불일치를 단순 scale/rotation/translation 문제가 아니라 uncalibrated camera에서 생기는 projective ambiguity로 보고, 이를 SL(4) factor graph로 푸는 것이다.

Contribution 01

VGGT Submaps

GPU memory 한계 때문에 긴 sequence를 여러 VGGT submap으로 나눠 생성.

Contribution 02

Projective Ambiguity

uncalibrated reconstruction은 일반적으로 15-DOF projective transform까지 모호할 수 있음을 SLAM 정렬 문제로 연결.

Contribution 03

SL(4) Factor Graph

relative homography와 loop closure를 SL(4) manifold 위에서 전역 최적화.

Contribution 04

Uncalibrated RGB SLAM

camera intrinsics나 consistent calibration 없이 monocular RGB로 dense mapping 수행.

내가 얻은 인사이트

이 논문은 VGGT를 SLAM에 붙이는 단순 engineering이 아니다. feed-forward reconstruction의 실패 형태를 classical projective geometry 언어로 해석하고, 그 해석에 맞는 manifold optimization을 설계한 점이 핵심이다.

처리 흐름
01RGB Framesuncalibrated monocular input
02Keyframesdisparity-based selection
03VGGT Submapdepth + pose + confidence
04Relative H5-point RANSAC homography
05Loop ClosureSALAD retrieval
06SL(4) Graphglobally aligned dense map
접근 방식 비교
VGGT

짧은 batch에 강함

dense reconstruction quality는 높지만, 긴 video는 GPU memory 한계로 한 번에 처리하기 어려움.

Sim(3) Alignment

때로는 부족함

translation, rotation, scale만 맞추면 projective distortion이 남을 수 있음.

SL(4) Alignment

projective까지 보정

15-DOF homography로 shear, stretch, perspective ambiguity까지 다룸.

논문 상세 정리

아래부터는 기존 논문 내용을 최대한 담은 상세 해석이다. 핵심 흐름에서 벗어나는 배경지식, notation, 부가 자료는 접어두었다.

Comments