Рет қаралды 271
발표자 : 서울대학교 산업공학과 DSBA 연구실 박사과정 김재희
1. 논문 제목 : ORPO: Monolithic Preference Optimization without Reference Model (COLM 2024) arxiv.org/abs/...
2. 인용 수 : 39회 (2024년 09월 29일 기준)
3. 요약
Policy Model만 필요로 하는 Preference Learning 방법론 제안
SFT 단계에서 적용가능한 Odds Ratio 기반 Penalty term 제안
DPO, RLHF 대비 높은 instruction following 및 preference learning 성능