DPO Debate: Is RL needed for RLHF?

  Рет қаралды 8,947

Nathan Lambert

Nathan Lambert

Күн бұрын

Пікірлер: 7
@spartaleonidas540
@spartaleonidas540 11 ай бұрын
Will LMsys release their chatbot arena preference dataset
@MacProUser99876
@MacProUser99876 11 ай бұрын
How DPO works under the hood: kzbin.info/www/bejne/gKaQoXmAg8uCnLs
@hinton4214
@hinton4214 Жыл бұрын
Thanks for sharing your thoughts
@aojing
@aojing 8 ай бұрын
@5:00 (14)
@patruff
@patruff Жыл бұрын
Finally, I love DP....oh
@SantoshGupta-jn1wn
@SantoshGupta-jn1wn Жыл бұрын
great video, thanks
@mohamedfouad1309
@mohamedfouad1309 Жыл бұрын
15min History of Reinforcement Learning and Human Feedback
17:24
Nathan Lambert
Рет қаралды 3 М.
How to approach post-training for AI applications
22:04
Nathan Lambert
Рет қаралды 1,1 М.
요즘유행 찍는법
0:34
오마이비키 OMV
Рет қаралды 12 МЛН
진짜✅ 아님 가짜❌???
0:21
승비니 Seungbini
Рет қаралды 10 МЛН
An update on DPO vs PPO for LLM alignment
13:23
Nathan Lambert
Рет қаралды 2,1 М.
NVIDIA CEO Jensen Huang's Vision for Your Future
1:03:03
Cleo Abram
Рет қаралды 204 М.
AIF + DPO: Distilling Zephyr and friends
15:07
Sasha Rush 🤗
Рет қаралды 3,8 М.
Self-directed Synthetic Dialogues (and other recent synth data)
15:51
ORPO: NEW DPO Alignment and SFT Method for LLM
24:05
Discover AI
Рет қаралды 4,4 М.
Open-source AI (and LLMs): Definitions, Finding Nuance, and Policy
20:44
요즘유행 찍는법
0:34
오마이비키 OMV
Рет қаралды 12 МЛН