Wooseok Song profile photo Paper Reviews

Continuous 3D Perception Model with Persistent State

CVPR 2025 OralarXiv: 21 Jan 2025
Authors
Qianqian Wang; Yifei Zhang; Aleksander Holynski; Alexei A. Efros; Angjoo Kanazawa
Affiliations
UC Berkeley; Google DeepMind
Topics
#3D Reconstruction#Persistent State#Video Geometry#Feed-forward

핵심 요약

CUT3R는 매 입력 이미지를 통해 persistent scene state를 갱신하고, 그 state에서 metric pointmap, camera pose, unseen-view structure를 읽어내는 recurrent 3D perception model이다.

문제scene마다 3D reconstruction 재시작 해결persistent state update/readout 근거depth / pose / state
한 문장 요약

CUT3R는 scene마다 백지 상태에서 최적화하던 3D reconstruction을, 관측이 들어올수록 갱신되는 learned state로 바꾼다.

Contribution 01

Persistent State

image stream의 scene content를 압축 저장하고 online update 지원.

Contribution 02

World-frame Pointmaps

공통 world coordinate에서 metric pointmap 직접 예측.

Contribution 03

Raymap Query

virtual camera raymap으로 unseen-view geometry와 color readout.

Contribution 04

Broad Input Conditions

video, unordered photo, static/dynamic scene, sparse observation 처리.

내가 얻은 인사이트

CUT3R는 optimization memory가 아니라 model memory로 3D scene을 이어가는 논문으로 읽으면 이해가 쉽다. 핵심은 pointmap 출력 자체보다, scene을 계속 갱신하고 다시 물어볼 수 있게 만드는 state다.

state 처리 흐름
01Image Streamvideo or photo collection
02Image TokensViT encoder features
03State Interactionimage token + state token
04State Updatepersistent scene memory
05Readout Headspointmap + pose + confidence
06Scene Outputonline 3D reconstruction
표현 방식 비교
Classical SfM / SLAM

scene별 최적화

현재 관측에서 구조를 만들기 때문에 sparse, degenerate, ill-posed 조건에 취약.

Pairwise 3D Models

pairwise 예측 후 정렬

pairwise pointmap 예측은 강하지만 multi-view 사용에는 보통 offline global alignment 필요.

CUT3R

persistent state readout

recurrent state를 유지하며 world-frame pointmap과 query-view structure를 online readout.

논문 상세 정리

아래부터는 기존 논문 내용을 최대한 담은 상세 해석이다. 핵심 흐름에서 벗어나는 배경지식, related work, 학습 세부 조건, 부가 평가 조건은 접어두었다.

Comments