https://arxiv.org/pdf/2303.08622.pdf

Contribution
- Zero-shot style transfer model 제안함
- 이를 위한 zero-shot contrastive loss 를 제안함
Overview of Proposed Method

DDIM 으로 Forward 하고, Reverse 과정에서 DDPM을 사용. 그리고 Reverse 중간중간에 CLIP loss와 ZeCon loss를 추가해주면서 Style과 Content 에 대한 학습을 이룸. main contribution 중 하나는 추가적은 training 없이, guide 가 가능하다는 것이다.
이 때, CLIP으로 Style 을 guide 하고, ZeCon으로 content를 guide 함
Style Guide loss
zero-shot 이기 때문에 CLIP loss 를 기반으로 한다.
식은 다음과 같다.

여기서

Content Preservation loss
Content 를 보존하기 위해 CUT loss 와 VGG perception loss 와 MSE loss를 더한 것이다.

pathNCEloss (called ZeCon)는

z는 l 번째 layer의 layer feature 이다. 그리고 VGG loss (perceptual loss) 이고, 그리고 MSE loss 를 더한다.
## Not Additional Training
본 논문은 additional training 이 없고, loss로만 guide를 주는 것이 핵심이다.
diffusion 모델의 unet noise predictor가 spatial information을 기존에 입증이 되었기 때문에, 추가적인 training 없이 각 latent image와 guide 이미지 만의 loss 계산으로 guide를 줄 수 있다는 것이 핵심이다.
댓글