Wooseok Song profile photoPaper Reviews

DROID-SLAM in the Wild

CVPR 2026Published: CVPR 2026 / arXiv v1: 19 Mar 2026
Authors
Moyang Li; Zihan Zhu; Marc Pollefeys; Dániel Béla Baráth
Affiliations
ETH Zurich; Microsoft
Topics
#Dynamic SLAM#DROID-SLAM#Uncertainty#Metric Depth

핵심 요약

DROID-W는 DROID-SLAM을 실세계 동적 RGB 환경으로 확장하기 위해, multi-view feature inconsistency에서 pixel-wise uncertainty를 추정하고 이를 differentiable BA 안에 넣는 SLAM 시스템이다.

문제동적 관측 → BA 불안정해결residual 신뢰도 가중근거tracking + ablation
한 문장 요약

DROID-W의 핵심은 동적 영역을 명시적으로 segment해서 버리는 것보다, 어떤 pixel을 BA에서 얼마나 믿을지 결정하는 uncertainty를 optimization loop 안에서 함께 갱신한다는 점이다.

Contribution 01

Uncertainty-aware BA

dynamic/static inconsistency가 큰 pixel의 BA 영향력을 낮춰 pose와 geometry update를 안정화.

Contribution 02

Feature Inconsistency

multi-view visual feature similarity를 이용해 per-pixel dynamic uncertainty를 추정.

Contribution 03

DROID-W Dataset

도심 outdoor, YouTube video, reflections, shadows, small dynamic objects 등 in-the-wild 조건 포함.

Evidence 04

Runtime Evidence

DROID-SLAM backbone 위에 DINOv2, Metric3D, uncertainty optimization을 추가했을 때의 실제 runtime 근거를 제시.

내가 얻은 인사이트

DROID-W는 ‘무엇을 동적 객체로 보고 제거할까’보다, BA가 어떤 관측을 얼마나 믿어야 하는가를 묻는다. 그래서 dynamic SLAM을 segmentation 문제가 아니라 weighted optimization 문제로 다시 읽게 만든다.

처리 흐름
01RGB Videoin-the-wild dynamic scenes
02DROID Featuresmulti-view feature alignment
03Inconsistencydynamic/static mismatch cue
04Uncertaintypixel-wise confidence weight
05Uncertainty-aware BApose + depth update
06Tracking / Mappingrobust RGB SLAM
접근 방식 비교
DROID-SLAM

정적 장면에 강한 기준선

DBA 기반 pose-depth update는 강력하지만, 동적 객체와 feature inconsistency가 큰 장면에서 흔들릴 수 있음.

Mask-based SLAM

hard filtering 기반 처리

동적이라고 판단한 관측을 제거하거나 masking하지만, 사전 class, segmentation 품질, geometry threshold에 영향을 받을 수 있음.

DROID-W

uncertainty 기반 신뢰도 조절

dynamic 여부를 hard mask로 끝내지 않고, BA objective 안에서 pixel별 영향력을 조절.

논문 상세 정리

아래부터는 기존 논문 내용을 최대한 담은 상세 해석이다. 핵심 흐름에서 벗어나는 배경지식, notation, 부가 자료는 접어두었다.

Comments