Wooseok Song profile photo Paper Reviews

4D Spatio-Temporal ConvNets: Minkowski Convolutional Neural Networks

CVPR 2019arXiv: 18 Apr 2019
Authors
Christopher Choy; JunYoung Gwak; Silvio Savarese
Affiliations
Stanford University
Topics
#3D Perception#Sparse CNN#Minkowski Engine#3D/4D Perception#Sparse Tensor

핵심 요약

MinkowskiCNN은 3D/4D perception 데이터에서 predefined sparse output coordinate에 대해서만 출력을 계산하고, 실제 존재하는 input neighbor만 모아 dense voxel grid의 낭비 없이 CNN 구조를 고차원 sparse signal에 적용한다.

문제빈 voxel 계산 낭비 해결generalized sparse conv 근거3D / 4D segmentation
한 문장 요약

MinkowskiCNN은 좌표가 존재하는 곳만 convolution하도록 sparse tensor와 kernel map을 정의해, dense voxel 낭비 없이 3D/4D semantic segmentation을 수행하게 만든다.

Contribution 01

Generalized Sparse Convolution

dense convolution, sparse submanifold convolution, stride, dilation, arbitrary kernel shape를 하나의 식으로 통합.

Contribution 02

Minkowski Engine

coordinate quantization, coordinate manager, kernel map, pooling, transposed convolution을 고차원 sparse tensor용으로 제공.

Contribution 03

4D Spatio-temporal ConvNets

3D video를 sparse 4D signal로 보고, frame-wise aggregation 대신 convolution으로 temporal context를 직접 처리.

Contribution 04

Hybrid Kernel / TS-CRF

4D cost를 줄이는 non-hypercubic kernel과 spatio-temporal consistency를 위한 7D trilateral stationary CRF 제안.

내가 얻은 인사이트

핵심은 단순히 “4D convolution을 했다”가 아니다. CNN layer가 존재하는 coordinate set 위에서만 연산하도록 시스템을 만든 덕분에, 기존 CNN architecture 아이디어를 sparse 3D/4D domain에 재사용할 수 있게 된 점이 중요하다.

처리 흐름
013D/4D Pointsspace + time
02Quantizationcontinuous to lattice
03Sparse Tensorcoordinates + features
04Kernel Mapinput-output pairs
05MinkowskiNet3D / 4D sparse CNN
06Segmentationsemantic labels
접근 방식 비교
Dense 3D CNN

dense grid first

구현은 직관적이지만 빈 3D 공간까지 계산해 memory와 compute 낭비가 큼.

Point-based Networks

point set first

dense voxel은 피하지만 CNN식 local weight sharing과 hierarchy를 그대로 쓰기 어려움.

MinkowskiCNN

sparse coordinate first

관측 coordinate만 유지하고 offset별 kernel map으로 convolution을 수행.

논문 상세 정리

아래부터는 기존 논문 내용을 최대한 담은 상세 해석이다. 핵심 흐름에서 벗어나는 배경지식, notation, 부가 자료는 접어두었다.

Comments