1. Introduction


→ human feedback을 사용한 강화학습으로 pre trained 언어모델을 fine tuning하여 사용자의 의도, 광범위한 지시사항에 따르도록 함. = models aligned with their users

→ Fine tuning을 위한 데이터 구축을 위해 40명의 Labeler 고용

screening test( Labeler들의 사전 능력 평가 실험 후 상위 랭크된 40명)

→ 이런 피드백을 기반으로 후속 연구를 진행하였고, API의 기본모델을 새모델 InstructGPT로 업데이트함.

2. RLFH - Reinforcement Learning from Human Feedback