본문 바로가기
논문 정리

Benchmarking Robustness of Adaptation Methods onPre-trained Vision-Language Models (NeurIPS 2023)

by winston1214 2023. 10. 10.
반응형

https://arxiv.org/abs/2306.02080

 

Benchmarking Robustness of Adaptation Methods on Pre-trained Vision-Language Models

Various adaptation methods, such as LoRA, prompts, and adapters, have been proposed to enhance the performance of pre-trained vision-language models in specific domains. The robustness of these adaptation methods against distribution shifts have not been s

arxiv.org

 

Abstract : 본 논문에선 4개의 visual-language dataset에서 11가지의 adaptation 방법의 robustness를 multimodal corruptions 상황에서 평가한다. 다양한 adaptation 방법의 robustness, 사용가능한 adaptation examples의 영향, 그리고 trainable parameter size의 영향을 분석한다. 그리고 trainable한 parameter size의 영향을 조사하기 위해, 96개의 visual corruption과 87개의 text corruption을 포함한 7개의 benchmark dataset을 소개한다.

최종적인 결과를 요약하면

1) adaptation method는 visual corruption 보다 text corruption에 민감하다.

2) full fine tuning은 가장 좋은 robustness 방법은 아니며 대신에 adapter는 full fine tuning과 비슷한 성능과 보다 더 좋은 성능이 나올 수 있다.

3) adaptation 데이터와 parameter의 수를 증가시키는 것은 robustness를 보장시키지 않으며, 오히려 더 낮은 robustness를 유발한다.

 

# Introduction

Q1) 어떠한 adaptation method가 robustness 성능을 높이는데 가장 좋을까?

Q2) 다양한 multimodal adaptation method가 visual corruption, language corruption 또는 둘 다에 대해서 얼마나 robust 할까?

Q3) 예시가 많거나 또는 parameter 개수가 많으면 robustness 에 도움이 될까?

이러한 3가지의 질문에 대해서 대답하기 위한 연구를 진행한다. 따라서 96개의 visual corruptions과 87개의 textual corruptions을 소개한다. 거기에 4가지의 VL dataset에서 11개의 adaptation method를 적용한 확장 실험을 진행한다.

그래서 결국 결론은 다음과 같다.

A1) adaptation method는 visual corruption 보다 text corruption에 민감하다.

A2) full fine tuning은 가장 좋은 robustness 방법은 아니며 대신에 adapter는 full fine tuning과 비슷한 성능과 보다 더 좋은 성능이 나올 수 있다.

A3) adaptation 데이터와 parameter의 수를 증가시키는 것은 robustness를 보장시키지 않으며, 오히려 더 낮은 robustness를 유발한다.

+ A4) 특정한 single adaptation 방법이 특출나게 엄청 좋은건 없다.

image and text corruption 예시.

# Preliminary of Model Adaptation Methods

본 논문에서 사용하는 adaptation methods

# Benchmark and Evaluations

## Corruption Methods

- Image Corruptions : ImageNet-C 에서 사용한 방법과 이 논문이 논문에서 사용한 방법에 blank 방법까지 더해서 corruption method를 사용하였다. 여기서 Blank corruption은  이미지의 픽셀을 255로 하여 빈 화면으로 만드는 것이다. (VL 이어서 가능). 그래서 여기서 사용한 방법을 큰 카테고리로 나타내면 noise, blur, weather, digital, 기타 이다.

noise : impulse noise, Gaussian noise, shot noise, speckle noise

blur : zoom blur, defocus blur, motion blur, frosted glass blur, Gaussian blur

digital: JPEG compression, contrast, elastic, spatter, saturate, pixelate

weather: snow, frost, fog, brightness

extra: blank

- Text Corruptions : corruption 종류를 3가지 group으로 나눠서 character-level, word-level, sentence-level로 나눔.

그리고 이것들을 6가지의 sub category로 분할할 수 있음. character modification, text style modification, text addition, dropping text based on POS, positional drop, and text swap.

몇가지 예시를 들어보면 text style은 passive, formal 또는 double negative로 text 에 대한 style을 변환할 수 있음.

Text addition은 추가적인 단어를 넣거나, Text drop은 POS 태깅에 기반하여 명사 또는 동사를 제거하는 방법

자세하겐 NeurIPS 2023 paper 들이 publish 되면 참고할 수 있을 것 같음. Supplement 에 있음.

- Evaluation

모델 F에서 OOD dataset인 \( D_O \)로 test 할 때 in domain test set \( D_{I} \) 과 비교하여 성능 하락을 측정.

D_I 에서 한 성능 P_I 과 D_O 에서한 성능 P_O를 먼저 평가한다. 그러고 나서 Related Robustness 라는 지표를 계산한다.

$$ RR = 1 - \Delta P / P_{I} \quad where, \Delta P = (P_{I} - P_{O} ) $$

RR 은 0 부터 1 사이 이고, RR=1 이면 강력한거

 

# Experiments

요건 필요할 때 읽음

 

반응형

댓글