Wooseok Song profile photoPaper Reviews

VGGT: Visual Geometry Grounded Transformer

CVPR 2025 Best Paper AwardarXiv v1: 14 Mar 2025
Authors
Jianyuan Wang; Minghao Chen; Nikita Karaev; Andrea Vedaldi; Christian Rupprecht; David Novotny
Affiliations
Visual Geometry Group, University of Oxford; Meta AI
Topics
#3D Reconstruction#Transformer#Multi-view Geometry#Foundation Model

핵심 요약

VGGT는 하나에서 수백 장의 이미지를 입력받아 camera parameter, point map, depth map, point track을 한 번의 feed-forward pass로 예측하는 3D foundation model이다.

문제분리된 3D reconstruction pipeline
해결하나의 transformer로 여러 3D output 예측
근거pose, depth, matching, ablation, transfer
한 문장 요약

VGGT의 핵심은 3D reconstruction을 task별 최적화 pipeline이 아니라 shared transformer backbone + multi-head prediction 문제로 재정의한다는 점이다.

Contribution 01

All-in-one 3D Output

camera, depth, point map, point track을 하나의 network가 함께 예측.

Contribution 02

Alternating Attention

frame-wise attention과 global attention을 번갈아 사용해 frame 내부 정규화와 multi-view 통합을 균형화.

Contribution 03

Feed-forward Speed

최적화 후처리 없이도 여러 task에서 SOTA급 성능과 빠른 runtime 달성.

Contribution 04

Backbone Transfer

pretrained feature를 novel view synthesis와 dynamic point tracking에 재사용 가능.

내가 얻은 인사이트

VGGT는 BA를 완전히 없앤다기보다, BA 없이도 바로 쓸 수 있는 초기 3D 예측을 강하게 만든다. 그래서 VGGT + BA가 더 좋아진다는 결과는 neural-first와 geometry refinement가 경쟁 관계만은 아니라는 점을 보여준다.

처리 흐름
01Input Views1 to hundreds of images
02DINO Tokenspatchified visual features
03AA Transformerframe-wise + global attention
04Prediction Headscamera / DPT / tracking
053D Outputscamera, depth, points, tracks
06Optional BArefinement when needed
접근 방식 비교
SfM / MVS

정확하지만 복잡함

matching, triangulation, BA 등 단계가 많고 post-processing 비용이 큼.

DUSt3R / MASt3R

pairwise 중심

두 장 단위 예측이 강하지만 많은 view를 합치려면 alignment가 필요.

VGGT

multi-view feed-forward

여러 view를 한 transformer context에서 처리하고 여러 3D quantity를 동시에 예측.

논문 상세 정리

아래부터는 기존 논문 내용을 최대한 담은 상세 해석이다. 핵심 흐름에서 벗어나는 배경지식, notation, 부가 자료는 접어두었다.

Comments