Рет қаралды 36,359
投影片:drive.google.c...
9:30 在這段課程錄影中,為了更清楚地比較 Alpha Go 的訓練過程與大型語言模型的訓練方式,我對 Alpha Go 的實際推論與訓練過程進行了大幅度的簡化。例如,我並未提及 Value Network 和 MCTS 等概念。如果您希望深入了解 Alpha Go 的訓練與推論過程,建議您閱讀原始論文。
13:30 需要注意的是,本段課程主要講述的是 Alpha Go 中 Policy Network 的訓練方式。事實上,Alpha Go 還包含了 Value Network 的訓練,用於估算棋局的勝率。這引發了一個有趣的思考:是否可以在大型語言模型的 RLHF中引入類似的概念?
19:50 在翻譯術語時,Reward Model 可能譯為「報酬模型」或「獎勵模型」比較合適
34:00 有關人生道路的抉擇不建議詢問大型語言模型