Wooseok Song profile photo Paper Reviews

3D Scene Graph: A Structure for Unified Semantics, 3D Space, and Camera

ICCV 2019Published: 2019
Authors
Iro Armeni; Jerry Zhi-Yang He; JunYoung Gwak; Amir R. Zamir; Martin Fischer; Jitendra Malik; Silvio Savarese
Affiliations
Stanford University; University of California, Berkeley
Topics
#Semantic / Scene Graph#Scene Graph#Semantic SLAM#3D Space#Camera

핵심 요약

이 논문은 장면의 의미 정보를 이미지가 아니라 3D mesh에 정합된 scene graph로 저장해, 건물·방·객체·카메라와 그 관계를 하나의 구조에서 다루자는 제안이다.

문제이미지 기준 semantic은 view 변화에 취약
해결3D mesh 위 layered graph로 grounding
근거Gibson scale 구축과 relationship task 검증
한 문장 요약

3D Scene Graph는 3D 공간을 의미 정보의 기준 좌표계로 삼고, 필요할 때 이미지/카메라 관측으로 다시 투영할 수 있는 통합 표현이다.

Contribution 01

Unified 3D Representation

building, room, object, camera를 layer graph로 연결하고 각 entity의 attribute/relationship을 함께 저장

Contribution 02

2D detector robustification

panorama에서 rectilinear query image를 framing하고 2D detection을 aggregation하여 label 품질 향상

Contribution 03

Multi-view consistency

여러 camera 위치의 projection vote를 3D mesh에서 결합해 label leakage와 view별 오류 보정

Contribution 04

Gibson graph modality

Gibson Environment에 3D Scene Graph modality를 추가하고 downstream relationship task 가능성 제시

내가 얻은 인사이트

이 논문은 단순히 object detection AP를 올리는 논문이라기보다, 의미 정보를 어디에 저장해야 오래 살아남는가를 묻는 논문에 가깝다. 3D mesh에 의미를 묶어두면 image view가 바뀌어도 같은 object, room, camera 관계를 다시 사용할 수 있다는 관점이 핵심이다.

구조 한눈에 보기

graph가 어떤 entity layer와 relationship을 묶는지 먼저 확인한다.

01Buildingroot node, function, floor, area
02Roomsscene category, illumination, volume
03Objectsclass, material, shape, mesh segment
04Cameraspose, FOV, modality, resolution
parent / containment
spatial order / relative volume / occlusion
표현 공간 비교

같은 semantic 정보가 image, mesh, graph 중 어디에 놓이는지 비교한다.

Image Space

viewpoint, crop, occlusion 변화에 민감. 의미 정보가 관측마다 흔들릴 수 있음

3D Mesh Space

기하와 camera pose가 붙어 있어 view-independent semantic grounding 가능

3D Scene Graph

3D mesh 위 entity, attribute, relationship을 query 가능한 graph로 구조화

개념 구분

3D Scene Graph를 읽을 때 헷갈리기 쉬운 개념을 “무엇을 담는가 / 어떻게 쓰이는가” 기준으로 분리한다.

개념담는 정보논문에서의 역할

Entity

building, room, object, camera 같은 graph nodescene 안에서 query 가능한 단위

Attribute

class, material, shape, volume, pose, FOV 등 node별 속성단순 label보다 풍부한 semantic state 제공

Relationship

containment, occlusion, spatial order, relative volume 등 edgeobject 사이의 비교/관계를 task로 연결

Grounding

2D detection을 3D mesh와 camera pose에 연결view가 바뀌어도 semantic 정보 재사용

논문 상세 정리

아래부터는 기존 논문 내용을 최대한 담은 상세 해석이다. 핵심 흐름에서 벗어나는 배경지식, notation, 부가 자료는 접어두었다.

Comments