논문 정리

MaskFlowNet : Asymmetric Feature Matching with Learnable Occlusion Mask

winston1214 2021. 7. 23. 15:52
반응형

MaskFlowNet은 2021년 7월 기준 Sintel-clean dataset 기준으로 End-point-error 2.52로 3등을 기록하였다.

본 논문은 CVPR2020에 발표된 논문이다.

optical flow에 대한 설명은

2021.07.21 - [논문 정리] - FlowNet : Learning Optical Flow with Convolutional Networks(Optical Flow~FlowNet2.0)

 

FlowNet : Learning Optical Flow with Convolutional Networks(Optical Flow~FlowNet2.0)

본 글은 https://www.youtube.com/watch?app=desktop&v=Z_t0shK98pM 기반으로 작성되었습니다. ## Optical Flow란? Optical Flow는 연속한 두 Frame 사이에서 각 Pixel의 Motion을 타나내는 Vector Map이다. 그림..

bigdata-analyst.tistory.com

위 글을 참고하면 Optical flow에 대해 설명이 자세히 알 수 있다.

 

MaskFlowNet은 다른 optical flow를 계산하는 network와 달리 다른 방법을 제안한다. 

## Occlusion mask

MaskFlowNet은 중간의 비대칭 occlusion mask를 추가하여 train을 용이하게 만들었다. 이러한 이유는 이미지에서 occlusion된 부분으로 인해 feature가 손상되면서 train하는 과정에서 오류가 발생할 수 있다.

따라서 본 논문에선 learnable occlusion mask를 씌워서 masked image를 생성하게 된다. 또한, 이러한 과정은 image뿐만 아니라 feature에도 동일하게 적용되어서 네트워크가 잘 학습할 수 있게 만든다.

occlusion mask

 

MaskFlowNet의 Architecture는 다음과 같다.

MaskFlowNet Architecture

처음에 기존의 Optical Flow를 계산하는 것 처럼 Feature Pyramid를 생성한 후 Asymmetric OFMMs를 통하여 Occlusion Mask를 학습한다. 그리고 Occulsion mask를 학습한 것과 학습하지 않은 것을 분리해서 cost volume을 계산하고 그것을 Pyramid로 다시 추출하고 layer를 통과한 다음에 더해서 flow를 형성한다.

## Feature matching module(FMM)

Feature matching module은 Flownet 설명할 때 Correlation layer를 설명했었는데 그 중간에 \( \upphi \)가 있는 것이다. \(\upphi\)는 Flow displacement 이고 \(F^{l}\)은 feature pyramid에서 level l의 Feature extractor를 말한다. 

그래서 \(I_{1}(x)\)와 \(I_{2}(x+\upphi)\)의 correlation layer를 통과하고 cost volume을 구한다.

FMM

## Occlusion-aware feature matching module(OFMM)

FMM에서 OFMM으로 가는 것이 본 논문에 가장 핵심적인 요소인데 그림처럼 \(\theta\)는 occlusion mask이고 \(\mu\) 는 trade-off term이다. 

기존 FMM에서 occlusion mask를 씌운 다음에 trade-off를 하고 correlation layer를 통과시켜 cost volume을 구한다.

OFMM
left) warp image, center) not using \(\mu\) right) using \(\mu\)

\(\mu\)를 추가함으로써 occlusion 부분을 더 잘 표현함을 볼 수 있다.

 

## AsymOFMM

AsymOFMM은 OFMM에서 \(D{l}\)이라는 Deformable convolution layer를 추가해준다. 이로써 전체적인 이미지의 transition이 비대칭하다고 가정하고 진행한 것이다. 

AsymOFMM

여기서 Deformable Convolution을 하면은 이미지의 넓은 영역을 수용할 수 있다. 그리고 Deformal한 움직임을 포함할 수 있기 때문에 더 좋은 훈련 성능을 보일 수 있다.

(a) convolution (b,c,d) deformable convolution

## Results

 

Results

PWC-Net과 비교했을 때 시간이 두 배정도 걸리지만 error 율은 많이 감소한 것을 볼 수 있다.

 

Results

 

반응형