KZ
bin
Негізгі бет
Қазірдің өзінде танымал
Тікелей эфир
Ұнаған бейнелер
Қайтадан қараңыз
Жазылымдар
Кіру
Тіркелу
Ең жақсы KZbin
Фильм және анимация
Автокөліктер мен көлік құралдары
Музыка
Үй жануарлары мен аңдар
Спорт
Ойындар
Комедия
Ойын-сауық
Тәжірибелік нұсқаулар және стиль
Ғылым және технология
Direct Preference Optimization: Your Language Model is Secretly a Reward Model | DPO paper explained
8:55
法國學者警告︰別捲入針對中國的自毁之戰!5個西方進行多年的「毒華」政策丨《Book Guy》|Lorey Chan
15:28
Lazy days…
00:24
ЭКСКЛЮЗИВ: МАЛ екенмін! Некесіз туылған ҚЫЗЫН мойындай ма? 15 мың теңгеге ренжіді!
2:44:02
I thought one thing and the truth is something else 😂
00:34
My daughter-in-law finally praised me# Laotie smiled# made a good play every day# photosynthesis pl
00:34
DPO V.S. RLHF 模型微调
Рет қаралды 2,835
Facebook
Twitter
Жүктеу
1
Жазылу 1 М.
Alice in AI-land
Күн бұрын
Пікірлер: 7
@neurite001
10 ай бұрын
激动万分啊, 也像 Andrew Ng 一样, 在咖啡馆里差一点就跳起来, 终于有中文博主讲解DPO了
@AliceInAILand
10 ай бұрын
😄 我也是 看到这么漂亮的证明满心欢喜;今天还看到meta家已经用这个self-rewarding的方法fine tune llama2-70b 说在一些benchmark上效果比gpt4好arxiv.org/abs/2401.10020
@theodoruszhou2692
8 ай бұрын
Thank you very much for the video, the explanations were very clear, and I learned a lot. Looking forward to your next work~
@AliceInAILand
8 ай бұрын
Glad it was helpful :)
@iwisher666
8 ай бұрын
加油 加油
@ZhousiChen-h8p
6 ай бұрын
能给数学并不好的人(我)解答一下吗? RLHF和DPO的共同点都是preference对子,DPO不依赖于reward model和RL,那是不是说DPO的训练数据会少很多?因为preference也是人来评判的,没用到其他模型作为近似。我感觉reward model也有是一个数据增广的作用,或者bootstrapping的感觉。 也很想知道,怎么把调整模型输出某个句子出现的概率转换成梯度的,最近看到一篇叫做KTO,说是不依赖preference对子,只要一个例子和一个二元判断受人类欢迎和不受欢迎就够了。不清楚为什么对子为啥这么重要。 如果可以,能请你更多用自然语言解释解释和对比一下这些方法论之间的异同吗?也希望节目时间能短一点。。。谢谢你!🤗
@fungpangfan8825
5 ай бұрын
❤🎉
8:55
Direct Preference Optimization: Your Language Model is Secretly a Reward Model | DPO paper explained
AI Coffee Break with Letitia
Рет қаралды 25 М.
15:28
法國學者警告︰別捲入針對中國的自毁之戰!5個西方進行多年的「毒華」政策丨《Book Guy》|Lorey Chan
Finance730
Рет қаралды 108 М.
00:24
Lazy days…
Anwar Jibawi
Рет қаралды 6 МЛН
2:44:02
ЭКСКЛЮЗИВ: МАЛ екенмін! Некесіз туылған ҚЫЗЫН мойындай ма? 15 мың теңгеге ренжіді!
НТК Show
Рет қаралды 593 М.
00:34
I thought one thing and the truth is something else 😂
عائلة ابو رعد Abo Raad family
Рет қаралды 10 МЛН
00:34
My daughter-in-law finally praised me# Laotie smiled# made a good play every day# photosynthesis pl
Fengjie Family Joke
Рет қаралды 6 МЛН
20:04
知道的先跑?美企高幹大賣股!2024/11/25【老王不只三分鐘】
老王愛說笑
Рет қаралды 58 М.
30:38
ОСЕЧКИН: "Путин пошел ва-банк, все решится скоро, я объясню почему".
И Грянул Грэм
Рет қаралды 250 М.
15:36
【羅家聰】俄烏戰爭繼續升級!| 會演變成第三次世界大戰!?|#羅家聰 #KCLaw #kc博士 #俄烏戰爭 #第三次世界大戰 #美股 #特朗普 #港元 #炒金 #金價 #黃金
MTF CHANNEL
Рет қаралды 57 М.
1:00:38
Reinforcement Learning from Human Feedback: From Zero to chatGPT
HuggingFace
Рет қаралды 173 М.
20:13
从零开始学习大语言模型(一)
林亦LYi
Рет қаралды 230 М.
55:00
【奧義 AI 資安年會 CraftCon Taiwan】AI 圈內不能說的秘密:探究 DNN 理論架構與 Complex System 的奧義,解密藏在 AI 魔法幕後的秘辛|邱銘彰 Birdman
CyCraft Technology
Рет қаралды 13 М.
27:05
Продать доллары выше 100 и положить деньги на вклады? || Дмитрий Потапенко* отвечает
Дмитрий ПОТАПЕНКО
Рет қаралды 154 М.
32:32
生成式AI这一年:从群雄混战到生态确立,世界已被改变
硅谷101
Рет қаралды 398 М.
13:29
11.27 突發|渣打銀行CEO警告小心資產價格突然急跌|新一輪銀行大Call loan將展開|明年執笠、破產及移民將大幅增加 !
LION哥的投資世界 | LION GOR'S INVESTMENT WORLD
Рет қаралды 98 М.
42:32
强化学习与ChatGPT:PPO 算法介绍和实际应用(中文介绍)
Pourquoi (布瓜的世界)
Рет қаралды 10 М.
00:24
Lazy days…
Anwar Jibawi
Рет қаралды 6 МЛН