https://arxiv.org/pdf/2103.00020.pdf
각 task(Semantic segmentation, OCR, Action recognition…)에 사용되는 CV model들은 Fixed category, label에 대해서 학습이 이루어진다.
Fixed category는 model의 robustness, training 자체를 저해한다.
NLP 모델들이 급격히 발전하면서, natural language supervision(raw text 처리)가 제시되었다.
이 논문에서 제시하는 model CLIP은 Pre-trained model(classification)로써 Text-Image contrasitive learning을 통해, downstream task(Semantic segmentation, OCR, Action recognition…)로의 Zero-shot transfer performance를 획기적으로 높여주었다.
ex) Semantic segmentation

Methodology
2.1. Creating a Sufficiently Large Dataset
WIT(WebImageText) Dataset
Internet에서 공개적으로 모을 수 있는 (image, text) pair를 약 40억 개 모음
500,000 query, 각 query당 20,000 (image, text) pair를 Dataset에 포함함 (Class balancing이 있어 갯수가 줄음)
GPT-2 train에 사용 된 WebText Dataset과 비슷한 word count 가짐
2.2. Contrastive learning


Main idea: 위 (image, text) pair matrix에서 diagonal entrie들은 positive pair, 그 외 entrie들은 negative pair라 하면, positive pair의 cosine similarity를 높이고, negative pair의 cosine similairty를 낮추도록 학습



Experiment
전반적으로 CLIP의 zero-shot performance가 높다.

fine grained detail을 찾아내는 것이 요구되는 dataset에서는 약세, 나머지는 강세를 보임


