Wooseok Song profile photo Paper Reviews

MonST3R: A Simple Approach for Estimating Geometry in the Presence of Motion

ICLR 2025Published: ICLR 2025 / arXiv v2: 8 May 2025
Authors
Junyi Zhang; Charles Herrmann; Junhwa Hur; Varun Jampani; Trevor Darrell; Forrester Cole; Deqing Sun; Ming-Hsuan Yang
Affiliations
UC Berkeley; Google DeepMind; Stability AI; UC Merced
Topics
#3D Reconstruction#Dynamic Scene#Video Geometry#DUSt3R

핵심 요약

MonST3R는 DUSt3R의 pointmap 표현을 dynamic video로 확장해 timestep별 geometry를 직접 예측하고, 같은 표현에서 camera pose, intrinsics, video depth, dynamic/static mask를 파생한다.

문제dynamic geometry 해결per-timestep pointmap 근거depth / pose / 4D
한 문장 요약

MonST3R는 dynamic video를 시간별 pointmap의 시퀀스로 보고, DUSt3R를 제한된 dynamic data로 fine-tuning한 뒤 video-specific optimization을 붙인다.

Contribution 01

Geometry-first Dynamics

explicit motion 변수 없이 moving/deforming scene을 timestep별 pointmap으로 표현.

Contribution 02

Data-efficient Adaptation

encoder는 고정하고 decoder/head만 제한된 dynamic posed depth video mixture로 fine-tuning.

Contribution 03

Video Optimization

PnP pose recovery, confident static mask, global alignment, smoothness, flow consistency를 video에 맞게 추가.

Contribution 04

Downstream Outputs

video depth, camera pose/intrinsics, dynamic/static mask, dynamic point cloud를 하나의 geometry 표현에서 도출.

내가 얻은 인사이트

핵심은 explicit motion model을 새로 붙이는 것이 아니라, geometry 자체를 시간별로 만들면 dynamic scene도 다룰 수 있는가를 묻는 점이다. static region은 전체를 묶는 anchor로만 사용된다.

처리 흐름
01Dynamic Videomoving object / camera motion
02DUSt3R BackboneViT encoder + decoder
03Dynamic Fine-tuningdecoder / head update
04Pointmapsone geometry per timestep
05Video Optimizationstatic mask / flow / smoothness
06Outputsdepth / pose / 4D cloud
접근 방식 비교
Multi-stage Dynamic Reconstruction

분해 후 최적화

depth, flow, mask, trajectory, residual motion을 따로 추정한 뒤 global optimization으로 결합.

DUSt3R

static pointmap prior

image pair의 aligned pointmap을 예측하지만 static-only training 때문에 moving foreground에서 실패 가능.

MonST3R

dynamic pointmap sequence

DUSt3R의 표현은 유지하되, 시간에 따라 geometry가 달라지는 video에 맞게 적응.

논문 상세 정리

아래부터는 기존 논문 내용을 최대한 담은 상세 해석이다. 핵심 흐름에서 벗어나는 배경지식, notation, 부가 자료는 접어두었다.

Comments