논문 링크 : https://arxiv.org/pdf/2004.00588v2.pdf
수화 번역(SLT)을 위한 알고리즘. 측정 지표 BELU(현재 SOTA)
## Abstract
수화 번역은 수화 인식 시스템을 사용하여 비디오에서 수화를 추출한다. 그리고 번역 시스템은 수화로부터 자연어를 생성한다. 본 논문은 수화 번역을 위한 시스템을 제안하고 이를 STMC-Transformer라고 정의한다.
본 논문은 이전 논문인 Sign2Gloss2Text 의 번역보다 더 뛰어나다고 한다.
## Introduction
본 논문의 contribution은 다음과 같다.
1. video -> text로 번역하는 STMC-Transformer는 번역 성능이 이전 모델보다 좋다
2. SLT(Sign-Language-Translation)에 Transformer를 최초로 적용한 논문이다.
3. 처음으로 weight tying 기법, 전이학습, 앙상블 기법을 SLT 분야에 처음으로 적용하였고, Transformer를 적용한 베이스라인을 만들어서 향후 연구에 도움이 될 수 있도록 하였다.
## Method
본 논문에선 자연어(구어)의 발전은 비약적으로 이뤄졌지만 수화처리는 뒤쳐져 있다고 언급하면서 기술의 발전이 뒤쳐진 이유에 대해 설명을 하였다. 수화는 다차원적 통신 형태로 수동과 비수동에 의존하는 다차원적 통신 형태로 어려움이 발생한다고 말하였다. 그러면서 기존 방식에 대한 문제점을 언급하였다.
1. 수화 Glossing
이 방법은 다른 언어로 수화를 한글자 한글자씩 표기하는 것을 말한다. gloss는 적절한 문장을 형성하지 못하는 문제점이 있다. 또한 부정확하며 1차원 stream으로 다채널 수화를 표현할 때 정보 병목현상이 발생할 수 있다.
2. 수화인식(SLR)
수화 인식은 프레임을 식별하는 것으로 구성된다. 수화 인식과 연속 수화인식은 시각적인 인식만 수행하고 수화의 기본 언어 특성을 무시한다.
3. 수화 번역(SLT)
수화 번역은 입력 비디오를 token화를 시키는 것을 우선적으로 한다. 이 때 토큰화를 시키기 위해 CSLR(continuos sign language translation)을 사용한다. 그리고 이렇게 추출된 단어를 통해 문장으로 만든다. SLT는 gloss 과정을 무조건 거치고 이를 기반으로 번역을 진행하기 때문에 문장의 정확도는 떨어진다.
## Model Architecture
본 논문의 Architecture는 STMC(Spatial-Temporal Multi-Cue)를 기반으로 한다.
### STMC
SMC(pose estimation)는 비디오를 여러 포즈의 공간적 특징(얼굴, 손 등)으로 분리한다.
- SMC는 Pose estimation을 포함하고 있는 모듈
그리고 TMC 블록을 통과한다. 이 블록에선 다른 시간에서 전달되는 신호(inter-cue)와 신호사이(intra-cue)의 상관관계를 계산한다. (video이기 때문에 시간 순서의 프레임이 존재) 상관관계를 계산하면서 각각의 고유한 feature를 따로 저장을 한다. 이렇게 inter-cue와 intra-cue가 분석이 된다.
이 이후 BiLSTM과 CTTC를 통해 각 gloss를 추론할 수 있게 된다.
### Transformer
이러한 gloss를 하나의 문장으로 만들어서 번역하기 위해 Transformer를 사용하였다. 이 때, 최대로그우드(maximize log likelihood)를 사용한다. 이 때, Transformer는 2개 층만 쌓는다.
댓글