https://arxiv.org/pdf/2103.00020.pdf

  1. Introduction

각 task(Semantic segmentation, OCR, Action recognition…)에 사용되는 CV model들은 Fixed category, label에 대해서 학습이 이루어진다.

  1. Dataset에서 제공하는 Label이 한정적
  2. Open vocabulary 모델이 없음

Fixed category는 model의 robustness, training 자체를 저해한다.

  1. Dataset간 Label의 의미가 모호히 겹치는 경우 존재
  2. 서로 없는 Label이 있는 경우 존재
  3. Transfer learning에서 Fixed Label을 이용한 training은 zero-shot transfer의 performance를 저해

NLP 모델들이 급격히 발전하면서, natural language supervision(raw text 처리)가 제시되었다.

  1. 아주 많은 양의 raw text data를 이용
  2. Contrastive Learning

이 논문에서 제시하는 model CLIP은 Pre-trained model(classification)로써 Text-Image contrasitive learning을 통해, downstream task(Semantic segmentation, OCR, Action recognition…)로의 Zero-shot transfer performance를 획기적으로 높여주었다.

ex) Semantic segmentation

Untitled

  1. Methodology

    2.1. Creating a Sufficiently Large Dataset

    WIT(WebImageText) Dataset

    Internet에서 공개적으로 모을 수 있는 (image, text) pair를 약 40억 개 모음

    500,000 query, 각 query당 20,000 (image, text) pair를 Dataset에 포함함 (Class balancing이 있어 갯수가 줄음)

    GPT-2 train에 사용 된 WebText Dataset과 비슷한 word count 가짐

    2.2. Contrastive learning

    다운로드.png

    Untitled

    Main idea: 위 (image, text) pair matrix에서 diagonal entrie들은 positive pair, 그 외 entrie들은 negative pair라 하면, positive pair의 cosine similarity를 높이고, negative pair의 cosine similairty를 낮추도록 학습

    1. (Image, text) pair에서 Image, text를 각각 encoder에 넣어 Image embedding vector, Text embedding vector를 얻음. (image/text → vector → multiply weight matrix → L2-Normailize)
    2. embedding vector를 같은 공간으로 Project

    Untitled

    Untitled

    1. (Image, text) pair의 Image, text를 각각 Label로 사용한다면, one-hot encoded label과 image/text vector를 이용해 image/text CE loss를 구함.
    2. (image CE loss+ text CE loss) / 2를 loss로 계산해 가중치 update

    Untitled

    1. 사용하는 Dataset의 Label을 prompt
    2. Text encoder로 text embedding vector set 추출
    3. Image encoder로 image embedding vector 추출
    4. image/text vector간 cosine similarity 계산, 가장 높은 similiarity가 Predicted Label
  2. Experiment

전반적으로 CLIP의 zero-shot performance가 높다.

Untitled

fine grained detail을 찾아내는 것이 요구되는 dataset에서는 약세, 나머지는 강세를 보임

Untitled

Untitled

Untitled