[Phrase Grounding]
Phrase Grounding을 구글 번역에 치면 "구문 접지" 이런 식으로 나오는데, 무슨 말인지 모르겠다. 따라서 paperwithcodes 의 설명을 이용하여 정리하면
Given an image and a corresponding caption, the Phrase Grounding task aims to ground each entity mentioned by a noun phrase in the caption to a region in the image.
라고 표현되어 있다.한국말로 해석하면, image와 그에 해당하는 caption (이미지를 설명하는 text)가 두개 다 주어진다면, Pharse Grounding 분야는 caption에 있는 명사구에 해당하는 각 entity를 이미지 영역에 매칭(접지)하는 것을 목표로 한다.이를 그림으로 그리면 다음과 같다. 그림 ( + \( \alpha \) )과 text를 input으로 넣으면 모델을 통해서 Object Detection이나 Segmentation, VQA 까지 해주는 것이다. (And가 아닌 Or) 여기서 \( \alpha \)는 Object Detection일 땐 bounding box label이 될 수 있는 것이고, segmentation일 땐 pixel 값이 될 수 있다. 따라서 여러 정보를 활용하여 텍스트의 명사구를 찾아 이미지와 mapping 시키는 것이라고 이해하면 된다.대표적인 논문은 GLIPv2 가 있다.
[Weakly supervised learning]
weakly supervised learning의 위키피디아의 정의를 보면
Weak supervision is a branch of machine learning where noisy, limited, or imprecise sources are used to provide supervision signal for labeling large amounts of training data in a supervised learning setting.
라고 나와있다.
Weakly supervised는 noise가 존재하거나 제한적이거나 부정확한 source가 supervised learning에서 label로 사용되는 분야이다.
Object Detection으로 예를 들어보자. Object Detection을 하기 위해 image, bounding box와 class 가 필요하다. 이는 supervised learning이다. 이를 weakly supervised learning 상태로 만들면 image와 class 만 존재하는 경우이다.
이에 따른 예시 그림은 노준혁 박사님의 ECCV 2022 논문에서 잘 나타난다.
weakly-supervised에 대한 종류는 다음의 그림처럼 나타난다.
weakly supervision의 타입은 다음과 같은 3가지로 요약될 수 있다.
1. incomplete supervision
incomplete supervision은 label 데이터의 정보가 부족한 경우를 말한다.
그리고 이를 해결하기 위해선 active learning, semi-supervised learning, transfer learning 라는 3가지 방법이 있다.
active learning은 초기 라벨링된 일부 데이터를 이용해 모델은 학습을 시작하고, 아직 라벨링이 이루어지지 않은 데이터 중 학습에 중요한 것들에 대해 라벨링을 요구한다. 그 이후 정보량이 풍부한 데이터를 이용해 습 진행 및 데이터를 요구하는 사이클을 통해 모델은 점차 고도화되는 방법이다.
semi-supervised learning은 label과 unlabel의 결합으로 label이 있는 데이터를 학습하여 unlabel의 labe을 예측하는 방법이다.
transfer learning은 기존에 학습된 지식을 이용하여 또 다른 문제를 푸는 방법이다. 즉, pretrained 된 모델을 이용하여 unlabel을 예측하는 방법이다.
2. inexact supervision
inexact supervision은 label과 feature들을 사용하여 training data를 식별하는 것이다. training data가 원하는 만큼 정확하지 않고 불명확한 label이 있는 경우 inexact supervision이 발생한다.
3. inaccurate supervision
사용 가능한 label이 반드시 정답이 아닌 경우 inaccurate supervision이 동작된다. 즉, label에 오류가 있을 경우이다.
Related Works
Weakly supervised detection & segmentation
- Jinhwan Seo, Wonho Bae, Danica Sutherland, Junhyug Noh*, and Daijin Kim*. Object Discovery via Contrastive Learning for Weakly Supervised Object Detection. ECCV 2022.
- Wonho Bae, Junhyug Noh, Milad Jalali Asadabadi, and Danica Sutherland. One Weird Trick to Improve Your Semi-Weakly Supervised Semantic Segmentation Model. IJCAI 2022.
- Xu, Yunqiu, et al. "H2FA R-CNN: Holistic and Hierarchical Feature Alignment for Cross-Domain Weakly Supervised Object Detection." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022.
Weakly supervised phrase grounding
- Datta, Samyak, et al. "Align2ground: Weakly supervised phrase grounding guided by image-caption alignment." Proceedings of the IEEE/CVF International Conference on Computer Vision. 2019.
- Wang, Qinxin, et al. "MAF: Multimodal Alignment Framework for Weakly-Supervised Phrase Grounding." EMNLP (1). 2020.
reference
https://blog.paperspace.com/an-introduction-to-weakly-supervised-learning/
'논문 정리' 카테고리의 다른 글
Model Summary (NLP) (0) | 2023.03.15 |
---|---|
PFMs for Natural Language Processing (0) | 2023.03.14 |
Denoising Diffusion Probabilistic Models(DDPM) (1) | 2022.11.08 |
Zero-shot Learning (2) | 2022.09.05 |
Signing at Scale: Learning to Co-Articulate Signs for Large-Scale Photo-Realistic Sign Language Production (CVPR2022) (0) | 2022.08.23 |
댓글