Wooseok Song profile photo Paper Reviews

WildPose: A Unified Framework for Robust Pose Estimation in the Wild

CVPR 2026arXiv v1: 12 May 2026
Authors
Jianhao Zheng; Liyuan Zhu; Zihan Zhu; Iro Armeni
Affiliations
Stanford University; ETH Zurich
Topics
#Dynamic SLAM#Dynamic Scene#Pose Estimation#Motion Mask#Visual SLAM

핵심 요약

WildPose는 MASt3R식 3D-aware feature, differentiable BA, edge-specific motion mask를 결합해 dynamic scene과 static scene 모두에서 안정적인 monocular pose estimation을 목표로 하는 프레임워크다.

문제dynamic → static SLAM 불안정 해결3D-aware BA + motion mask 근거dynamic / static / depth / ablation
한 문장 요약

이 논문은 in-the-wild pose estimation을 stronger 3D-aware pair feature와 edge-dependent motion mask가 differentiable BA를 함께 안정화하는 문제로 본다.

Contribution 01

Unified Pose Estimator

dynamic, low-motion, static benchmark를 함께 겨냥하는 monocular pose estimator.

Contribution 02

3D-aware BA Operator

DROID식 optimization loop 안에 MASt3R encoder feature를 넣어 frontend prior 강화.

Contribution 03

Edge Motion Mask

pairwise motion mask로 특정 edge에서 outlier가 되는 dynamic region만 residual downweight.

Contribution 04

Cross-regime Evidence

Wild-SLAM/Bonn/TUM dynamic, Sintel, TUM static, 7-Scenes, depth estimation, ablation으로 검증.

내가 얻은 인사이트

WildPose는 DROID-SLAM을 semantic segmentation 시스템으로 바꾸지 않으면서 static-scene 의존성을 줄이려는 시도로 읽으면 좋다. 핵심은 dynamic을 단순히 지우는 것이 아니라, optimizer가 더 강한 3D-aware pair evidence를 사용하게 만드는 데 있다.

처리 흐름
01RGB Sequencecalibrated monocular video
02MASt3R Encoder3D-aware pair features
03Update Operatorflow / confidence / damping
04Motion Maskedge-specific dynamic weight
05Masked BApose + disparity optimization
06Loop / Global BAlong-term consistency
접근 방식 비교
Semantic Dynamic SLAM

class prior 기반 제거

known class에는 유용하지만 unseen movable object와 segmentation failure에 취약.

MegaSaM / WildGS-SLAM

motion/rendering cue

semantic prior는 줄이지만 synthetic gap, low-capacity motion decoding, online mapping cost가 남음.

WildPose

feature-rich optimizer

MASt3R의 3D-aware feature를 differentiable BA loop에 넣고 edge별 motion mask를 학습.

논문 상세 정리

아래부터는 기존 논문 내용을 최대한 담은 상세 해석이다. 핵심 흐름에서 벗어나는 related work, 학습 세부 조건, baseline 조건 메모는 접어두었다.

Comments