Language Models are Unsupervised Multitask Learners

PAIS Paper Review 7th week (NLP)
Presentor : 김소현

<aside> 📖 Paper : Language Models are Unsupervised Multitask Learners Link : https://bit.ly/3vgaVJc Authors : Alec Radford, Jeffrey Wu, Rewon Child, David Luan, Dario Amodei, Ilya Sutskever Code : https://github.com/openai/gpt-2

</aside>

OpenAI의 2018 GPT-2에 대한 논문이다.

GPT-1에서는, Transformer decoder block + unsupervised pretraining을 사용하여 약간의 Fine tuning으로 NLP의 여러 tasks에서 SOTA를 달성해냈다.

GPT-2에서는 Fine tuning 없이 unsupervised pre-training만으로 zero-shot downstream tasks를 진행하는 General Language Model을 개발하는 것을 목표로 하였다.

Background….

LLM Evolution
Zero-Shot, One-Shot, Few-Shot Learning in NLP
[GPT-1] Generative Pre-trained Transformer
Previous

[GPT-2] Language Models are Unsupervised Multitask Learners

Summary

Introduction

[문제점]
[기존 솔루션과 한계]
[논문의 해결방안]