【生成式AI導論 2024】第8講：大型語言模型修練史 - 第三階段: 參與實戰，打磨技巧 (Reinforcement Learning from Human Feedback, RLHF)

Рет қаралды 36,359

Күн бұрын

投影片：drive.google.c...
9:30 在這段課程錄影中，為了更清楚地比較 Alpha Go 的訓練過程與大型語言模型的訓練方式，我對 Alpha Go 的實際推論與訓練過程進行了大幅度的簡化。例如，我並未提及 Value Network 和 MCTS 等概念。如果您希望深入了解 Alpha Go 的訓練與推論過程，建議您閱讀原始論文。
13:30 需要注意的是，本段課程主要講述的是 Alpha Go 中 Policy Network 的訓練方式。事實上，Alpha Go 還包含了 Value Network 的訓練，用於估算棋局的勝率。這引發了一個有趣的思考：是否可以在大型語言模型的 RLHF中引入類似的概念？
19:50 在翻譯術語時，Reward Model 可能譯為「報酬模型」或「獎勵模型」比較合適
34:00 有關人生道路的抉擇不建議詢問大型語言模型

Пікірлер: 54

@yongshangli8104 5 ай бұрын

来自大陆的学生，真的羡慕有这样的老师

@yongshangli8104 5 ай бұрын

感谢老师一直的分享

@yangjin7178 5 ай бұрын

加入旁听

@vvxx2287 5 ай бұрын

工作之余AI学习全靠李老师，感谢

@w565u44 5 ай бұрын

大陆高校上课没前途啊，要项目，基金，帽子才是关键

@yangjin7178 5 ай бұрын

@@w565u44 好好学习!

@HungyiLeeNTU 5 ай бұрын

9:30 在這段課程錄影中，為了更清楚地比較 Alpha Go 的訓練過程與大型語言模型的訓練方式，我對 Alpha Go 的實際推論與訓練過程進行了大幅度的簡化。例如，我並未提及 Value Network 和 MCTS 等概念。如果您希望深入了解 Alpha Go 的訓練與推論過程，建議您閱讀原始論文。 13:30 需要注意的是，本段課程主要講述的是 Alpha Go 中 Policy Network 的訓練方式。事實上，Alpha Go 還包含了 Value Network 的訓練，用於估算棋局的勝率。這引發了一個有趣的思考：是否可以在大型語言模型的 RLHF中引入類似的概念？ 19:50 在翻譯術語時，Reward Model 可能譯為「報酬模型」或「獎勵模型」比較合適 34:00 有關人生道路的抉擇不建議詢問大型語言模型

@elvis1322 5 ай бұрын

謝謝老師補充，來去自主學習更深

@laiafbin4495 5 ай бұрын

在LLM引入value network 的概念，是指多一個model 評估完整答案的正確率嗎?

@gabrielgracenathanana1713 5 ай бұрын

reward model 的翻译：为什么华人，不管是台湾还是大陆，全部都是这德行，在科技前沿地带搞翻译，而且，还要意译。真见鬼了。这是华人们的反人类罪😂😢。教授已经开始有一点觉悟了，有抵制，不错😅😂

@akingtoy 5 ай бұрын

關燈了，又起來開電腦，上課了。

@user-ly9sz6bp7e 5 ай бұрын

今天這個上傳時間感覺上完課去睡覺剛剛好！🫶🏻

@susuky3832 5 ай бұрын

1. 大模型訓練第三階段：互動及技巧學習（Reinforcement Learning from Human Feedback, RLHF） ◦ RLHF意義：模型根據用戶反饋進行學習與調整。 ◦ 例子：使用者對模型給出的答案不滿意時，可要求模型重新生成答案，並提供反饋。 2. 訓練資料差異： ◦ 第一階段：Pre-training，使用網路取得的資料。 ◦ 第二階段：Intermediate Pre-training，資料由人提供，稱為Supervised Learning。 ◦ 第三階段：RLHF，訓練資料不再是明確的輸出，而是相對好壞的評價。 3. Reinforcement Learning (RL) 概念： ◦ RL運作方式：語言模型根據反饋調整參數，提高好答案的生成機率，降低壞答案的生成機率。 4. RLHF與人類參與的比較： ◦ 第二階段需人類提供問題與答案。 ◦ 第三階段人類只需評價模型生成的答案。 5. RLHF的實際應用： ◦ 使用回饋模型（Reward Model）來模擬人類反饋，進行模型訓練。 6. 訓練模型演進： ◦ 從AI-Human Feedback (AI-HF) 到 AI-AI Feedback (AI-AI-F)，使用AI模型互相提供回饋。 7. 訓練階段總結： ◦ 第一階段 (Pre-training)：基礎模型訓練。 ◦ 第二階段 (Intermediate Pre-training)：進一步訓練，引入人類老師。 ◦ 第三階段 (RLHF)：針對人類偏好進行調整，進行更深層次的學習。

@lochiwen_art 2 ай бұрын

GPT 建議去工作不要念博班一氣之下給了負回饋那段像段子一樣不禁看了三次 😂 有加字幕真的很棒兩倍速看的時候很方便感謝教授做這麼麻煩的事情

@highker 5 ай бұрын

感謝老師一直分享～

@yinchuliu6914 5 ай бұрын

這個更新時間是在致敬芙麗蓮!?

@lw2519 5 ай бұрын

老师的课程没结束，我已经把《埋葬的芙莉莲》看完了，谢谢老师推荐，期待第二季😅

@ztl2262 5 ай бұрын

谢谢李老师！

@Patricia_Liu 5 ай бұрын

謝謝老師!

@user-qj8do3sh9g 4 ай бұрын

感谢老师一直分享，帮助好大，还想请问老师，作业部分有没有开放资源，想自己做下练习试试

@不具名人士-l4q 5 ай бұрын

來補課啦~ 順便跟下面那位怪人說一句。這節課是導論🤭芙莉蓮是真理！

@weibinzheng8943 3 ай бұрын

作业怎么看呢，有没有好心人放一下？

@Terry0319 5 ай бұрын

謝謝老師

@jiayizhang7406 26 күн бұрын

晚来的追更

@mr.goldenball333 5 ай бұрын

來這邊update福利連劇情😊

@gabrielgracenathanana1713 5 ай бұрын

这种东西，这就像毒药/

@JulienChu-f8m 5 ай бұрын

请同学们先看完《葬送的芙莉莲》，再来上此门课！❤

@xaviertsai4063 5 ай бұрын

上課啦～

@ArkExtension 4 ай бұрын

請問 nvidia 講 RAG 的課可以分享嗎？

@blesslaitw 4 ай бұрын

老師不好意思想請問一下：回饋模型的出現是否也是利用RLHF的方式？這樣語言模型訓練到最後，是不是就變成回饋模型的樣子？那這樣我是不是直接用回饋模型來取代語言模型就好呢？

@hankdonald7812 3 ай бұрын

我猜测reward model只能判断大语言模型输出结果的好与坏，reward model自身并不能进行token接龙，所以reward model取代不了大语言模型。

@振魂石-b6i 5 ай бұрын

过度向虚拟人类学习，应该出现了过拟合(Over fitting)，模型学了偏招。

@miku3920 5 ай бұрын

把 MCTS 用在語言模型上不知道會怎樣

@ken0602s 5 ай бұрын

老師有空會講講MAMBA嗎~

@weibinzheng8943 3 ай бұрын

Reward Model，感觉上跟GAN里面的判别模型有点像

@wenjingHan-vb7nc 5 ай бұрын

老师，有没有时间讲讲MANBA模型

@cheukhwan3 5 ай бұрын

這次的聲音比之前的影片都小了, 希望之後的影片能大聲一點點, 謝謝教學

@diman33 5 ай бұрын

這部爆天龍八部的雷

@道泽 Ай бұрын

我打算去看芙莉莲了

@user-qf2fm4js1z 3 ай бұрын

人的行為及語言文字回應, 受意識形態影響很大, 如何決定虛擬人類的意識形態呢?

@stevebruno3749 5 ай бұрын

来上课

@hyperwang 5 ай бұрын

25:30 提到 LLM 過度跟 reward model 學習後會導致結果變爛, 這會不會是 reward model 本身有問題, 而不是過度學習導致的呢?

@hankdonald7812 3 ай бұрын

本来就是reward model自身的问题，才导致大语言模型输出结果变差。但是，reward model自身有问题这点，目前是不可避免的(毕竟reward model不是真的人类)。如果大语言模型没有过度向reward model学习，那么reward model的问题是不会传染给大语言模型的，所以才说，大语言模型过度向reward model学习导致了大语言模型结果变差。reward model可以认为是大语言模型的训练集，reward model中有噪音(比如文中的pls，？？？)，大语言模型正式过度拟合了这些噪声，才导致输出结果里面总是含有pls，？？？