
transformer는 자연어 처리(NLP)에서 각광받고 있는 model이다.


In NLP, transformer has become model of the choice
In computer vision however.. CNNs remain dominant
In this paper:
standard transformer를 image에 direct하게 적용하고자 한다. 이미지를 patch 단위로 자르고 patch에 해당하는 linear embedding을 생성하여 (마치 NLP에서 token(sub-word)에 하는 것처럼) transformer에 input으로 넣어준다.
Image classification task에 대해 supervised fashion으로 model을 train했다.