DPO V.S. RLHF 模型微调

Direct Preference Optimization: Your Language Model is Secretly a Reward Model | DPO paper explained

法國學者警告︰別捲入針對中國的自毁之戰！5個西方進行多年的「毒華」政策丨《Book Guy》｜Lorey Chan

ЭКСКЛЮЗИВ: МАЛ екенмін! Некесіз туылған ҚЫЗЫН мойындай ма? 15 мың теңгеге ренжіді!

I thought one thing and the truth is something else 😂

My daughter-in-law finally praised me# Laotie smiled# made a good play every day# photosynthesis pl

DPO V.S. RLHF 模型微调

Рет қаралды 2,835

Alice in AI-land

Alice in AI-land

Күн бұрын

Пікірлер: 7

@neurite001 10 ай бұрын

激动万分啊, 也像 Andrew Ng 一样, 在咖啡馆里差一点就跳起来, 终于有中文博主讲解DPO了

@AliceInAILand 10 ай бұрын

😄 我也是看到这么漂亮的证明满心欢喜；今天还看到meta家已经用这个self-rewarding的方法fine tune llama2-70b 说在一些benchmark上效果比gpt4好arxiv.org/abs/2401.10020

@theodoruszhou2692

@theodoruszhou2692 8 ай бұрын

Thank you very much for the video, the explanations were very clear, and I learned a lot. Looking forward to your next work～

@AliceInAILand 8 ай бұрын

Glad it was helpful :)

@iwisher666 8 ай бұрын

加油加油

@ZhousiChen-h8p

@ZhousiChen-h8p 6 ай бұрын

能给数学并不好的人（我）解答一下吗？ RLHF和DPO的共同点都是preference对子，DPO不依赖于reward model和RL，那是不是说DPO的训练数据会少很多？因为preference也是人来评判的，没用到其他模型作为近似。我感觉reward model也有是一个数据增广的作用，或者bootstrapping的感觉。也很想知道，怎么把调整模型输出某个句子出现的概率转换成梯度的，最近看到一篇叫做KTO，说是不依赖preference对子，只要一个例子和一个二元判断受人类欢迎和不受欢迎就够了。不清楚为什么对子为啥这么重要。如果可以，能请你更多用自然语言解释解释和对比一下这些方法论之间的异同吗？也希望节目时间能短一点。。。谢谢你！🤗

@fungpangfan8825

@fungpangfan8825 5 ай бұрын

❤🎉

Direct Preference Optimization: Your Language Model is Secretly a Reward Model | DPO paper explained

8:55

Direct Preference Optimization: Your Language Model is Secretly a Reward Model | DPO paper explained

AI Coffee Break with Letitia

Рет қаралды 25 М.

法國學者警告︰別捲入針對中國的自毁之戰！5個西方進行多年的「毒華」政策丨《Book Guy》｜Lorey Chan

15:28

法國學者警告︰別捲入針對中國的自毁之戰！5個西方進行多年的「毒華」政策丨《Book Guy》｜Lorey Chan

Finance730

Рет қаралды 108 М.

00:24

Anwar Jibawi

Рет қаралды 6 МЛН

ЭКСКЛЮЗИВ: МАЛ екенмін! Некесіз туылған ҚЫЗЫН мойындай ма? 15 мың теңгеге ренжіді!

2:44:02

ЭКСКЛЮЗИВ: МАЛ екенмін! Некесіз туылған ҚЫЗЫН мойындай ма? 15 мың теңгеге ренжіді!

НТК Show

Рет қаралды 593 М.

I thought one thing and the truth is something else 😂

00:34

I thought one thing and the truth is something else 😂

عائلة ابو رعد Abo Raad family

Рет қаралды 10 МЛН

My daughter-in-law finally praised me# Laotie smiled# made a good play every day# photosynthesis pl

00:34

My daughter-in-law finally praised me# Laotie smiled# made a good play every day# photosynthesis pl

Fengjie Family Joke

Рет қаралды 6 МЛН

知道的先跑？美企高幹大賣股！2024/11/25【老王不只三分鐘】

20:04

知道的先跑？美企高幹大賣股！2024/11/25【老王不只三分鐘】

老王愛說笑

Рет қаралды 58 М.

ОСЕЧКИН: "Путин пошел ва-банк, все решится скоро, я объясню почему".

30:38

ОСЕЧКИН: "Путин пошел ва-банк, все решится скоро, я объясню почему".

И Грянул Грэм

Рет қаралды 250 М.

【羅家聰】俄烏戰爭繼續升級！| 會演變成第三次世界大戰！？|#羅家聰 #KCLaw #kc博士 #俄烏戰爭 #第三次世界大戰 #美股 #特朗普 #港元 #炒金 #金價 #黃金

15:36

【羅家聰】俄烏戰爭繼續升級！| 會演變成第三次世界大戰！？|#羅家聰 #KCLaw #kc博士 #俄烏戰爭 #第三次世界大戰 #美股 #特朗普 #港元 #炒金 #金價 #黃金

MTF CHANNEL

Рет қаралды 57 М.

Reinforcement Learning from Human Feedback: From Zero to chatGPT

1:00:38

Reinforcement Learning from Human Feedback: From Zero to chatGPT

HuggingFace

Рет қаралды 173 М.

从零开始学习大语言模型（一）

20:13

从零开始学习大语言模型（一）

林亦LYi

Рет қаралды 230 М.

【奧義 AI 資安年會 CraftCon Taiwan】AI 圈內不能說的秘密：探究 DNN 理論架構與 Complex System 的奧義，解密藏在 AI 魔法幕後的秘辛｜邱銘彰 Birdman

55:00

【奧義 AI 資安年會 CraftCon Taiwan】AI 圈內不能說的秘密：探究 DNN 理論架構與 Complex System 的奧義，解密藏在 AI 魔法幕後的秘辛｜邱銘彰 Birdman

CyCraft Technology

Рет қаралды 13 М.

Продать доллары выше 100 и положить деньги на вклады? || Дмитрий Потапенко* отвечает

27:05

Продать доллары выше 100 и положить деньги на вклады? || Дмитрий Потапенко* отвечает

Дмитрий ПОТАПЕНКО

Рет қаралды 154 М.

生成式AI这一年：从群雄混战到生态确立，世界已被改变

32:32

生成式AI这一年：从群雄混战到生态确立，世界已被改变

硅谷101

Рет қаралды 398 М.

11.27 突發｜渣打銀行CEO警告小心資產價格突然急跌|新一輪銀行大Call loan將展開|明年執笠、破產及移民將大幅增加 !

13:29

11.27 突發｜渣打銀行CEO警告小心資產價格突然急跌|新一輪銀行大Call loan將展開|明年執笠、破產及移民將大幅增加 !

LION哥的投資世界 | LION GOR'S INVESTMENT WORLD

Рет қаралды 98 М.

强化学习与ChatGPT：PPO 算法介绍和实际应用(中文介绍）

42:32

强化学习与ChatGPT：PPO 算法介绍和实际应用(中文介绍）

Pourquoi (布瓜的世界)

Рет қаралды 10 М.

00:24

Anwar Jibawi

Рет қаралды 6 МЛН