Reinforcement learning from human feedback (RLHF) (Ouyang et al., 2022)

1. Introduction

BACKGROUND
( 2022.05.04 ) GPT3가 발표되고 약 2년이 지난 시점에서 OpenAI는 강화학습이라는 새로운 키로 GPT연구의 발전 방향을 수립 → InstructGPT (GPT-3*)
( 2022.11.30 ) 6개월 뒤, InstructGPT의 연장선이라 볼 수 있는 chatGPT (GPT-3.5) 발표
( 2023.03.15 ) 이미지도 이해하는 ChatGPT+ (GPT-4) 발
WHY?
Generative Pretrained Model, GPT

OpenAI에서 1,2,3,4까지 나온 LLM(거대 언어 모델)

어떤 텍스트가 주어졌을때, 다음 텍스트를 예측하며 인간처럼 논리정연한 글을 생성

GPT-3를 API로 사람들에게 제공하며 LLM 활용 범위가넓어짐.
기존GPT의 큰 문제점
1. Untruthful(거짓)
2. Toxic(해로움)
3. Not helpful(도움이 안됨)
- GPT가 생성하는 모든 텍스트가 이렇다는 것이 아니라 잘못된 경우에 국한된 특징
모델이 유저가 원하는 방식으로 행동하지 않는다!

ex) GPT-3는 유저의 의도와 상관없이 비슷한 문장만을 생성 → 지시를 따르기 위해 학습된 것이 아니라 인터넷에서 수집된 텍스트로 학습되었기 때문이다. 따라서 주어진 지시에 맞게 생성되지 않을 수 있다.
후속 연구

→ human feedback을 사용한 강화학습으로 pre trained 언어모델을 fine tuning하여 사용자의 의도, 광범위한 지시사항에 따르도록 함. = models aligned with their users

→ Fine tuning을 위한 데이터 구축을 위해 40명의 Labeler 고용

screening test( Labeler들의 사전 능력 평가 실험 후 상위 랭크된 40명)

→ 이런 피드백을 기반으로 후속 연구를 진행하였고, API의 기본모델을 새모델 InstructGPT로 업데이트함.

Alignment = 인간의 의도에 맞게 동작하도록 LM을 조정하는것
<사용자>의 의도에 맞게 파인튜닝을 할 때, <사용자>는 연구에 참여한 저자들과 labeler들로 한정됨. 더욱 광범위한 사용자의 선호도를 반영할 수 있는 방안은 open quesiton이다.