Learning Transferable Visual Models From Natural Language Supervision

https://arxiv.org/pdf/2103.00020.pdf

Introduction

각 task(Semantic segmentation, OCR, Action recognition…)에 사용되는 CV model들은 Fixed category, label에 대해서 학습이 이루어진다.

Dataset에서 제공하는 Label이 한정적
Open vocabulary 모델이 없음

Fixed category는 model의 robustness, training 자체를 저해한다.

Dataset간 Label의 의미가 모호히 겹치는 경우 존재
서로 없는 Label이 있는 경우 존재
Transfer learning에서 Fixed Label을 이용한 training은 zero-shot transfer의 performance를 저해

NLP 모델들이 급격히 발전하면서, natural language supervision(raw text 처리)가 제시되었다.

아주 많은 양의 raw text data를 이용
Contrastive Learning

이 논문에서 제시하는 model CLIP은 Pre-trained model(classification)로써 Text-Image contrasitive learning을 통해, downstream task(Semantic segmentation, OCR, Action recognition…)로의 Zero-shot transfer performance를 획기적으로 높여주었다.

ex) Semantic segmentation

Untitled

Methodology

2.1. Creating a Sufficiently Large Dataset

WIT(WebImageText) Dataset

Internet에서 공개적으로 모을 수 있는 (image, text) pair를 약 40억 개 모음

500,000 query, 각 query당 20,000 (image, text) pair를 Dataset에 포함함 (Class balancing이 있어 갯수가 줄음)

GPT-2 train에 사용 된 WebText Dataset과 비슷한 word count 가짐

2.2. Contrastive learning

Main idea: 위 (image, text) pair matrix에서 diagonal entrie들은 positive pair, 그 외 entrie들은 negative pair라 하면, positive pair의 cosine similarity를 높이고, negative pair의 cosine similairty를 낮추도록 학습
1. (Image, text) pair에서 Image, text를 각각 encoder에 넣어 Image embedding vector, Text embedding vector를 얻음. (image/text → vector → multiply weight matrix → L2-Normailize)
2. embedding vector를 같은 공간으로 Project
1. (Image, text) pair의 Image, text를 각각 Label로 사용한다면, one-hot encoded label과 image/text vector를 이용해 image/text CE loss를 구함.
2. (image CE loss+ text CE loss) / 2를 loss로 계산해 가중치 update
1. 사용하는 Dataset의 Label을 prompt
2. Text encoder로 text embedding vector set 추출
3. Image encoder로 image embedding vector 추출
4. image/text vector간 cosine similarity 계산, 가장 높은 similiarity가 Predicted Label
Experiment

전반적으로 CLIP의 zero-shot performance가 높다.

Untitled

fine grained detail을 찾아내는 것이 요구되는 dataset에서는 약세, 나머지는 강세를 보임

Untitled