논문 정리

[STMC] Spatial-Temporal Multi-Cue Network for Continuous Sign Language Recognition

winston1214 2021. 8. 19. 21:09
반응형

[수화번역] 을 위한 논문

https://arxiv.org/abs/2002.03187

 

Spatial-Temporal Multi-Cue Network for Continuous Sign Language Recognition

Despite the recent success of deep learning in continuous sign language recognition (CSLR), deep models typically focus on the most discriminative features, ignoring other potentially non-trivial and informative contents. Such characteristic heavily constr

arxiv.org

 

## Abstract

기존의 수화 번역을 위한 알고리즘은 표정과 손 모양의 상호작용 크게 고려하지 않는다. 따라서 본 논문에선 손 모양과 표정의 시각적인 효과 의미를 추측하는 STMC Network를 제안한다.

STMC 모듈은 크게 두가지로 나눠지는데 첫번째는 공간적 multi-cue 를 모듈(SMC)와 시간적 multi-cue(TMC) 모듈로 구성된다. 

- SMC 모듈 : pose estimation 을 사용하여 다양한 시각적 특성을 분해하는 모듈

- TMC 모듈 : 두 개의 병렬 경로(iter-cue, intra-cue)를 따라 시간적 상관관계 모델링을 하는 모듈

마지막으로 end-to-end 순차적 학습 네트워크를 설계하였다.

 

## Introduction

수화의 중요성을 강조하면서 수화를 번역하는 것에 대한 어려움을 강조하였다. 특히, CSLR(연속적 수화 인식)은 다른 신호와 switching 하면서 함께 발생할 수 있다는 점을 강조하였다.

그리고 기존 연구에 대한 두가지 한계점을 제시하였다. 첫번째로 end-to-end 학습방식이 안된다는 점과 기존의 네트워크는 비디오 작업을 할 때 컴퓨팅적인 오버헤드가 발생한다는 것이다. 이러한 문제점을 해결하기 위해선 Action Recognition 같이 시공간적 모듈을 이용하는 것이다.

하지만 이 때, strong featrue 와 weak feature 의 시너지 활용 방법이 어려운 문제점으로 남아있다. 또한, 딥러닝 network 같은 경우 strong feature에만 집중되어 있기 때문에 strong feature와 weak feature의 시너지는 어려움이 있었다. 

따라서 본 논문은 STMC framework를 제안한다.

SMC 모듈에선 backbone 상단에 pose estimation을 위해 2개의 deconvolution layer를 추가한다. 또한, keypoints 위치의 정확한 추정과 시간적 부분의 후속 운영에 대해 차별점을 주기 위해서 soft-argmax trick을 이용한다.

다른 신호들과 공간적표현은 중간 layer의 feature map을 재사용하여 획득된다. 이러한 공간적 표현 학습에 기반하여 시간 모델링 부분(TMC)를 inter-cue와 intra-cue로 분해한다.

inter-cue는 다른 시간적 정보의 시간적 상관관계를 결합하고 intra-cue각 큐의 내부 의존성을 모델링하여 서로 다른 시간 척도로 inter-cue에 공급한다. 

따라서 본 논문에선 CTC(Connectionist Temporal Classification)와 키포인트 회귀를 통한 공동 최적화 전략을 설계하여 전체 구조를 전체적으로 훈련할 수 있도록 설계한 STMC를 제안한다.

본 논문의 Contribution은 다음과 같다.

1. SMC모듈을 self-contained pose estimation으로 구성하였다. 이를 통해 end-to-end 방식으로 Multi-cue 기능 제공과 효율성을 동시에 유지할 수 있다.

2. TMC 블록을 쌓은 TMC module을 제안한다. 이 각각의 블록들은 각각 다른 cue들의 시너지를 intra-cue와 inter-cue를 통해서 동시에 보존하고 표현할 수 있다.

3. STMC network의 순차적 학습을 위한 최적화 전략을 제안한다.

4. 수화 번역 SOTA 달성했다.

 

## Proposed Approach

STMC

일단 T frame이 주어졌을 때, 상응하는 sign gloss 를 예측하는 구조(L)이다.

그림을 설명하자면 일단 각각의 프레임은 SMC 모듈에 의해 처리되는데 이는 multi-cue의 공간적 feature들(hand,face)을 생성한다. 그리고 TMC 모듈을 활용하여 inter-cue와 intra-cue의 시간적 상관관계를 다양한 시간단계와 시간 scale로 캡쳐한다. 마지막으로 전체 STMC 모듈을 BiLSTM을 통해 encoding 하고 그 값을 CTC를 통해 순차적으로 학습과 추론을 한다. 

## SMC representation

SMC 모듈은 VGG11을 backbone으로 한다. 이를 통해서 각각의 multi-cue(face, hand) feature map을 생성한다. 

SMC module

### Pose estimation

Pose Estimation을 위하여 2개의 deconvolution layer를 VGG-11상단에 적용하였다. feature map을 14x14 부터 56x56까지 upsampling을 진행한다. 그리고 이 결과는 heat map을 생성하게 된다. 히트맵 안에서 동일한 keypoint의 위치는 가장 높은 응답을 보여서 이 부분이 hand인지 Face인지 구분을 할 수 있게 된다. 이를 통해서 상단의 7개의 keypoint를 추출할 수 있게 된다.

이러한 heat map에 soft-argmax layer를 적용한다. 이를 통해 nomalized 한 예측된 keypoint를 추출할 수 있다.

### Patch Cropping

CSLR에선 손들의 모양이나 표정 같은것을 포함한 디테일을 중요시한다. 따라서 본 논문의 모델은 코와 양 손목의 위치를 추정할 수 있다. 이를 patch 방식으로 cropping을 한다. VGG16을 거친 output으로 부터 cropping을 진행하는데, 이 때 손은 24x24로 얼굴 부분은 16x16으로 cropping 한다.

### Feature Generation

K의 keypoint를 예측한 후 두개의 FC layer를 통과하여 1차원으로 만든다. 이 때 각각의 얼굴과 양손의 feature map은 cropped 되고 각각의 convolution layer에 의해 처리된다. 그리고 모든 feature map에 대해 Global Average Pooling을 수행한다. 그리고 이를 통해 다른 cue의 feature vector를 형성하게 된다.

 

## TMC

Inter-cue와 intra-cue를 이용하여 공간적 시간 정보를 통합하고자 한 모듈 TMC를 제안한다. 

Intra-cue는 각각의 시각적인 단서의 특징 feature를 capture하는 것이고 inter-cue는 다른 시간 scale에 대한 단서들을 통합하여 학습하는 것이다. 

TMC

### Intra-Cue

Intra cue는 다른 시간에 다른 cue의 독특한 정보를 제공한다. 그리고 Temporal transformation을 내부에서 수행한다. 

Intra-cue

### Inter-Cue

그리고 두번째 경로는 이전 블록의 인터큐 피쳐에서 시간 변환을 수행하고 큐 내 경로의 정보를 다음과 같이 결합하는 것이다.

inter-cue

그리고 각 블록을 지나고 난 후 stride=2로 maxpooling을 진행한다. 본 논문에선 두개의 블록을 TMC 모듈 내에 사용한다. 

반응형