[Paper Review] ORPO: Monolithic Preference Optimization without Reference Model

  Рет қаралды 271

서울대학교 산업공학과 DSBA 연구실

서울대학교 산업공학과 DSBA 연구실

Күн бұрын

발표자 : 서울대학교 산업공학과 DSBA 연구실 박사과정 김재희
1. 논문 제목 : ORPO: Monolithic Preference Optimization without Reference Model (COLM 2024) arxiv.org/abs/...
2. 인용 수 : 39회 (2024년 09월 29일 기준)
3. 요약
Policy Model만 필요로 하는 Preference Learning 방법론 제안
SFT 단계에서 적용가능한 Odds Ratio 기반 Penalty term 제안
DPO, RLHF 대비 높은 instruction following 및 preference learning 성능

Пікірлер: 1
@EmiliaPniewski
@EmiliaPniewski 2 күн бұрын
예측해 주셔서 감사합니다! 주제와 약간 동떨어진 질문이 있습니다: SafePal 지갑에 USDT가 있으며, 복구 문구를 가지고 있습니다. (behave today finger ski upon boy assault summer exhaust beauty stereo over). 이들을 Binance로 옮기는 방법을 설명해 주실 수 있나요?
[Paper Review] AnomalyCLIP: Object-agnostic Prompt Learning for Zero-shot Anomaly Detection
36:40
서울대학교 산업공학과 DSBA 연구실
Рет қаралды 167
[Paper Review] The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits
33:36
서울대학교 산업공학과 DSBA 연구실
Рет қаралды 378
ЭТО НАСТОЯЩАЯ МАГИЯ😬😬😬
00:19
Chapitosiki
Рет қаралды 2,2 МЛН
🍉😋 #shorts
00:24
Денис Кукояка
Рет қаралды 3,7 МЛН
规则,在门里生存,出来~死亡
00:33
落魄的王子
Рет қаралды 27 МЛН
From Small To Giant Pop Corn #katebrush #funny #shorts
00:17
Kate Brush
Рет қаралды 72 МЛН
[Paper Review] Affective-NLI: Towards Accurate Interpretable Personality Recognition in Conversation
29:16
서울대학교 산업공학과 DSBA 연구실
Рет қаралды 139
Transformer-based Multivariate TimeSeries Anomaly Detection using Inter-Variable Attention Mechanism
36:13
서울대학교 산업공학과 DSBA 연구실
Рет қаралды 418
[Paper Review] GLAD
29:12
서울대학교 산업공학과 DSBA 연구실
Рет қаралды 149
[Paper Review] Koopman Neural Operator Forecaster for Time-series with Temporal Distribution Shifts
49:15
서울대학교 산업공학과 DSBA 연구실
Рет қаралды 172
ЭТО НАСТОЯЩАЯ МАГИЯ😬😬😬
00:19
Chapitosiki
Рет қаралды 2,2 МЛН