[STMC] Spatial-Temporal Multi-Cue Network for Continuous Sign Language Recognition
[수화번역] 을 위한 논문
https://arxiv.org/abs/2002.03187
## Abstract
기존의 수화 번역을 위한 알고리즘은 표정과 손 모양의 상호작용 크게 고려하지 않는다. 따라서 본 논문에선 손 모양과 표정의 시각적인 효과 의미를 추측하는 STMC Network를 제안한다.
STMC 모듈은 크게 두가지로 나눠지는데 첫번째는 공간적 multi-cue 를 모듈(SMC)와 시간적 multi-cue(TMC) 모듈로 구성된다.
- SMC 모듈 : pose estimation 을 사용하여 다양한 시각적 특성을 분해하는 모듈
- TMC 모듈 : 두 개의 병렬 경로(iter-cue, intra-cue)를 따라 시간적 상관관계 모델링을 하는 모듈
마지막으로 end-to-end 순차적 학습 네트워크를 설계하였다.
## Introduction
수화의 중요성을 강조하면서 수화를 번역하는 것에 대한 어려움을 강조하였다. 특히, CSLR(연속적 수화 인식)은 다른 신호와 switching 하면서 함께 발생할 수 있다는 점을 강조하였다.
그리고 기존 연구에 대한 두가지 한계점을 제시하였다. 첫번째로 end-to-end 학습방식이 안된다는 점과 기존의 네트워크는 비디오 작업을 할 때 컴퓨팅적인 오버헤드가 발생한다는 것이다. 이러한 문제점을 해결하기 위해선 Action Recognition 같이 시공간적 모듈을 이용하는 것이다.
하지만 이 때, strong featrue 와 weak feature 의 시너지 활용 방법이 어려운 문제점으로 남아있다. 또한, 딥러닝 network 같은 경우 strong feature에만 집중되어 있기 때문에 strong feature와 weak feature의 시너지는 어려움이 있었다.
따라서 본 논문은 STMC framework를 제안한다.
SMC 모듈에선 backbone 상단에 pose estimation을 위해 2개의 deconvolution layer를 추가한다. 또한, keypoints 위치의 정확한 추정과 시간적 부분의 후속 운영에 대해 차별점을 주기 위해서 soft-argmax trick을 이용한다.
다른 신호들과 공간적표현은 중간 layer의 feature map을 재사용하여 획득된다. 이러한 공간적 표현 학습에 기반하여 시간 모델링 부분(TMC)를 inter-cue와 intra-cue로 분해한다.
inter-cue는 다른 시간적 정보의 시간적 상관관계를 결합하고 intra-cue는 각 큐의 내부 의존성을 모델링하여 서로 다른 시간 척도로 inter-cue에 공급한다.
따라서 본 논문에선 CTC(Connectionist Temporal Classification)와 키포인트 회귀를 통한 공동 최적화 전략을 설계하여 전체 구조를 전체적으로 훈련할 수 있도록 설계한 STMC를 제안한다.
본 논문의 Contribution은 다음과 같다.
1. SMC모듈을 self-contained pose estimation으로 구성하였다. 이를 통해 end-to-end 방식으로 Multi-cue 기능 제공과 효율성을 동시에 유지할 수 있다.
2. TMC 블록을 쌓은 TMC module을 제안한다. 이 각각의 블록들은 각각 다른 cue들의 시너지를 intra-cue와 inter-cue를 통해서 동시에 보존하고 표현할 수 있다.
3. STMC network의 순차적 학습을 위한 최적화 전략을 제안한다.
4. 수화 번역 SOTA 달성했다.
## Proposed Approach
일단 T frame이 주어졌을 때, 상응하는 sign gloss 를 예측하는 구조(L)이다.
그림을 설명하자면 일단 각각의 프레임은 SMC 모듈에 의해 처리되는데 이는 multi-cue의 공간적 feature들(hand,face)을 생성한다. 그리고 TMC 모듈을 활용하여 inter-cue와 intra-cue의 시간적 상관관계를 다양한 시간단계와 시간 scale로 캡쳐한다. 마지막으로 전체 STMC 모듈을 BiLSTM을 통해 encoding 하고 그 값을 CTC를 통해 순차적으로 학습과 추론을 한다.
## SMC representation
SMC 모듈은 VGG11을 backbone으로 한다. 이를 통해서 각각의 multi-cue(face, hand) feature map을 생성한다.
### Pose estimation
Pose Estimation을 위하여 2개의 deconvolution layer를 VGG-11상단에 적용하였다. feature map을 14x14 부터 56x56까지 upsampling을 진행한다. 그리고 이 결과는 heat map을 생성하게 된다. 히트맵 안에서 동일한 keypoint의 위치는 가장 높은 응답을 보여서 이 부분이 hand인지 Face인지 구분을 할 수 있게 된다. 이를 통해서 상단의 7개의 keypoint를 추출할 수 있게 된다.
이러한 heat map에 soft-argmax layer를 적용한다. 이를 통해 nomalized 한 예측된 keypoint를 추출할 수 있다.
### Patch Cropping
CSLR에선 손들의 모양이나 표정 같은것을 포함한 디테일을 중요시한다. 따라서 본 논문의 모델은 코와 양 손목의 위치를 추정할 수 있다. 이를 patch 방식으로 cropping을 한다. VGG16을 거친 output으로 부터 cropping을 진행하는데, 이 때 손은 24x24로 얼굴 부분은 16x16으로 cropping 한다.
### Feature Generation
K의 keypoint를 예측한 후 두개의 FC layer를 통과하여 1차원으로 만든다. 이 때 각각의 얼굴과 양손의 feature map은 cropped 되고 각각의 convolution layer에 의해 처리된다. 그리고 모든 feature map에 대해 Global Average Pooling을 수행한다. 그리고 이를 통해 다른 cue의 feature vector를 형성하게 된다.
## TMC
Inter-cue와 intra-cue를 이용하여 공간적 시간 정보를 통합하고자 한 모듈 TMC를 제안한다.
Intra-cue는 각각의 시각적인 단서의 특징 feature를 capture하는 것이고 inter-cue는 다른 시간 scale에 대한 단서들을 통합하여 학습하는 것이다.
### Intra-Cue
Intra cue는 다른 시간에 다른 cue의 독특한 정보를 제공한다. 그리고 Temporal transformation을 내부에서 수행한다.
### Inter-Cue
그리고 두번째 경로는 이전 블록의 인터큐 피쳐에서 시간 변환을 수행하고 큐 내 경로의 정보를 다음과 같이 결합하는 것이다.
그리고 각 블록을 지나고 난 후 stride=2로 maxpooling을 진행한다. 본 논문에선 두개의 블록을 TMC 모듈 내에 사용한다.