Wooseok Song profile photo Paper Reviews

3D Dynamic Scene Graphs: Actionable Spatial Perception with Places, Objects, and Humans

Robotics: Science and Systems, 2020arXiv v2: 16 Jun 2020
Authors
Antoni Rosinol; Arjun Gupta; Marcus Abate; Jingnan Shi; Luca Carlone
Affiliations
MIT Laboratory for Information & Decision Systems
Topics
#Semantic / Scene Graph#Dynamic Scene Graph#Spatial Perception#Humans#Objects

핵심 요약

이 논문은 3D Scene Graph를 동적 agent, traversability, planning query까지 다룰 수 있는 3D Dynamic Scene Graph로 확장하고, visual-inertial data에서 이를 자동 구축하는 SPIN을 제안한다.

문제SLAM map과 task action 사이 간극
해결dynamic agent까지 담는 layered DSG
근거SPIN과 uHumans로 자동 구축 검증
한 문장 요약

3D DSG는 dense mesh에서 building까지 이어지는 계층적 공간 표현에 사람/로봇 같은 agent의 시간적 관계를 붙여, SLAM 결과를 planning과 decision-making에 바로 연결하려는 표현이다.

Contribution 01

Dynamic Scene Graph

정적 3D scene graph를 layered, hierarchical, dynamic, actionable representation으로 확장

Contribution 02

SPIN

stereo camera와 IMU streaming data에서 DSG를 자동 생성하는 Spatial PerceptIon eNgine 제안

Contribution 03

Human Mesh Tracking

visual-inertial SLAM과 dense human mesh tracking을 하나의 spatial perception pipeline 안에서 결합

Contribution 04

uHumans Evaluation

Unity 기반 photorealistic simulator에서 crowded scene, object, room parsing을 정량 평가

내가 얻은 인사이트

이 논문은 “semantic SLAM을 더 잘한다”보다 한 단계 위의 질문을 던진다. 핵심은 로봇이 무엇을 기억하고, 무엇을 계획에 써야 하는가이며, DSG는 geometry, semantics, topology, dynamics를 같은 graph 안에서 query 가능한 형태로 묶는다.

계층 구조

metric detail에서 planning abstraction으로 올라가는 layer 관계를 먼저 본다.

01Metric-Semantic Meshvertices, faces, panoptic labels
02Objects / Agentsstatic objects, humans, robot trajectories
03Places / Structurestopology, traversability, walls
04Roomsroom, corridor, hall adjacency
05Buildingsingle building, global bounding box
하위 node가 상위 layer에 포함
metric detail → planning abstraction
기존 표현과의 차이

3D_SG, 3D_DSG, SPIN이 각각 어디까지 담당하는지 분리한다.

3D Scene Graph

정적 scene의 entity, attribute, relationship을 3D space에 구조화

3D Dynamic Scene Graph

agent trajectory, time-aware relation, traversability까지 포함해 planning query 지원

SPIN

Kimera, object parsing, human tracking, room parsing을 결합해 DSG를 sensor data에서 자동 구축

DSG Layer Lens

이 논문은 3D_SG의 “semantic database” 관점을 로봇이 실제로 행동할 수 있는 hierarchy로 바꾼다.

Layer무엇을 담나로봇 관점의 역할

Mesh

3D point, face, RGB, panoptic label정밀 collision / reconstruction 기반

Objects / Agents

object pose, bounding box, human/robot trajectory, mesh동적 장면과 object search의 중심

Places / Structures

free-space topology, traversability, wall/floor/ceilingnavigation graph와 room parsing 연결

Rooms / Building

room adjacency, room containment, building root고수준 task planning의 추상화 단위

논문 상세 정리

아래부터는 기존 논문 내용을 최대한 담은 상세 해석이다. 핵심 흐름에서 벗어나는 배경지식, 반복 나열, 부가 자료는 접어두었다.

Comments