深度强化学习(2/5)：价值学习 Value-Based Reinforcement Learning

Рет қаралды 40,896

Shusen Wang

Күн бұрын

Пікірлер: 76

@chris--tech 4 жыл бұрын

正在苦苦的入门，被一堆概念劝退，直到我看到你的视频，国货之光！

@ShusenWang 4 жыл бұрын

多谢支持！

@ninglvfeihong 28 күн бұрын

最近研究深度强化学习，结果被一堆概念搞得云里雾里。没想到能被这几十分钟的视频讲得透透彻彻！感谢分享。

@飄飄-k1g 5 ай бұрын

讚, 把已知, 未知, 想要的目標, 都講得清楚 , 數學表示式子都清楚了, 感覺就比較簡單吸收 , 感謝大老分享

@jiahao2709 3 жыл бұрын

以前我都只看英文的视频学习，我一直觉得英文的视频质量更高，讲得更好，直到这个系列让我改变了看法！讲的太好了！！！我觉得如果集合一些这样高质量的教授，应该搞个中文版的机器学习暑期学校，目前心中已有的两位就是：王教授和台大李宏毅

@zhichaowang3122 3 жыл бұрын

这是我见过的，讲的最好的RL视频，思路清晰，深入浅出。也看过很多其他RL教学视频，基本上看5分钟就看不下去了，看shusen的视频可以一口气看完

@yuelinzhurobotics 3 жыл бұрын

一口气看完，这么好的频道，一定要顶起来，入门之光啊

@ShusenWang 3 жыл бұрын

讲义：github.com/wangshusen/DRL/blob/master/Notes_CN/

@jasoncheng4555 3 жыл бұрын

爱您~

@0929zhurong 3 жыл бұрын

Your explanation is tons better than my professor's, much appreciation for your high quality content

@derekhsiang6859 4 жыл бұрын

讲的太好了，RL入门者的福音！这么优秀的课程，希望能被更多人了解！

@Meditator80 Жыл бұрын

太感恩王老师的讲解了, 深入浅出，完全是效率学习的新次元😄

@drt1524 3 жыл бұрын

老师讲的太好了，是我见过最清晰的RL教学

@DED_Search 3 жыл бұрын

感谢老师一直重复概念和定义，加深记忆

@xinli8681 4 жыл бұрын

非常感谢分享，很多东西都变得清晰起来，真的谢谢您！

@startrek3779 3 жыл бұрын

讲得非常清晰和简练，感谢老师！

@gacctom 3 жыл бұрын

謝謝分享~不斷的提醒概念,很好的教學影片,支持!

@醬-r5p 3 жыл бұрын

簡單紀錄 1:30 後一小段的內容：動作價值函數，Qpi可以衡量當前st做出動作at的好壞程度最優動作價值函數，可以決策出最好的action 最好的action，才會讓期望分數最大化 DQN learning 使用神經網路，近似最優動作價值函數可以把最優動作價值函數當作先知，模型依照先知的指示做出動作玩遊戲，就會像開了掛一樣，但實際上我們沒有最佳動作價值函數，但想法就是訓練一個動作價值函數，近似最佳動作價值函數 5:24 DQN 價值學習的方法，用神經網路，算出玩遊戲的最佳動作稱作 Q(s,a) 神經網路的輸入是狀態 s，神經網路的輸出是神經網路Q認為最好的action -

@luwent7063 3 жыл бұрын

感谢老师的无私分享！！！

@60s_ShortBuzz Жыл бұрын

请问7:04说的训练好DQN是指给输入的状态都配个正解label, 然后让它fit model对吗？如果是这样的话，通过人工来看每张图制作正解label，觉得挺累的

@你爺爺-z4w Жыл бұрын

王老师讲得真的好

@ll00000000ll 2 жыл бұрын

深入浅出，大师级别！

@phanhomdong 6 ай бұрын

老师讲的很通透👍

@ddp4775 3 жыл бұрын

讲的太好了，强烈要求多出视频！！！

@Jack-dx7qb 2 жыл бұрын

天阿怎麼有人能把RL講得這麼好...

@莫斯科-c5n 4 жыл бұрын

宝藏视频博主，已关注。

@terry9026955 2 жыл бұрын

天啊! 講得太清楚明白了!

@gr82moro Жыл бұрын

谢谢，讲的很好

@hanxianghe4446 4 жыл бұрын

除了我爱你，我脑子里蹦不出其他词儿

@DarkRice 4 жыл бұрын

“你看，它没接住” 这句话亮了。。。

@moonlee4665 4 жыл бұрын

Thx! 讲解的非常清楚明明白白的

@marswang7111 2 жыл бұрын

谢谢解惑了

@yutingchen4029 4 жыл бұрын

怒赞！！！！！！！！清楚！！！！

@yongfeng6682 2 жыл бұрын

例子举的太妙了

@jinlk34 Жыл бұрын

現在這樣agent會選擇分數最高的動作執行，這樣還會有隨機性嗎? 因為上一堂提到policy function會給每個動作一個機率，但agent不一定選擇機率最高的action執行，目的是為了確保有隨機性。

@smithsam3956 Ай бұрын

我认为还是少了一些实战内容的讲解。

@aldikroos6290 4 жыл бұрын

研究生第一学期选了强化学习，结果作为一个没基础的小白加上英语授课只勉强及格，现在终于看到学懂的曙光了

@aldikroos6290 4 жыл бұрын

只可惜成绩划不掉了，呜呜呜

@汤灵-l9y 2 жыл бұрын

非常感谢您的视频，请问可以转载到B站吗（注明出处和来源）

@stephensu4000 3 жыл бұрын

请教一下老师： DQN训练出来的是Q*函数，那在用TD算法进行训练的时候，一个动作的回报r是从哪里得到的呢？

@stephensu4000 3 жыл бұрын

这个r是不是指Q*函数对于这一步动作的奖励呢？

@rck.5726 2 жыл бұрын

王老师可不可以讲下multi armed bandit呀

@nengliu5654 4 жыл бұрын

老师好，问一个问题：在TD算法中，y_t也是和参数w_t相关的，为什么不对y_t求梯度呢？这一块没有听明白。

@ShusenWang 4 жыл бұрын

就像是左脚踩右脚飞起来的轻功。左脚踩右脚的时候，右脚不能动。

@shitongmao5265 11 ай бұрын

请问小qt不是3维的吗？那小yt也是三维的吗？

@pengxu8542 4 жыл бұрын

牛b,全是干货

@adamwu6650 3 жыл бұрын

太优秀了救了我

@stephentauo996 Жыл бұрын

打卡

@jiahao2709 3 жыл бұрын

有个问题，奖励函数我看到有多种定义， Reward =f (s,a) or Reward = f(s) or Reward = f(s,a, s') ，这三种定义都有什么区别呢？

@ShusenWang 3 жыл бұрын

常用的奖励假设 f(s, a)或者 f(s, a, s')。这两者的区别在于给定 s 和 a 之后，奖励是唯一确定的还是随机的。

@rjbzzz 3 жыл бұрын

@@ShusenWang 王老师，我认为f(s, a)和f(s, a, s')的区别在于是否考虑了s'的状态，sutton的书中称为二元组期望收益和三元组期望收益，从概念上说，奖励都是有概率的，确定的只是概率为1时的情况，这两者的区别不在于奖励是唯一确定的还是随机的。

@shouqinguan3979 3 жыл бұрын

有代码吗

@jaysonzhou5786 4 жыл бұрын

感谢分享！请问26:41第6点，做gradient descent时，TD loss对w的偏导数不应该还含有Q(s_{t+1},a)相关的项吗？为什么只有d_t了呢

@ShusenWang 4 жыл бұрын

不是的。这种算法叫做 Q-learning，只对 Q(s_t, a_t) 关于 w 求导，把 y_t 看做常数。 y_t 中的奖励是 r_t，这是唯一观测到的信息，相当于训练数据。算法用一个奖励 r_t 更新 Q(s_t, a_t)，这是可行的，因为 Q(s_t, a_t) 依赖于 r_t。但是不应该靠 r_t 更新 Q(s_{t+1}, a)，因为 Q(s_{t+1}, a) 与 r_t 无关。y_t 中的 w 来自于Q(s_{t+1}, a_{t+1}) ，所以更新 y_t 中的 w 是不合理的。

@jaysonzhou5786 4 жыл бұрын

@@ShusenWang 明白了，非常感谢！！

@ningzhen2678 4 жыл бұрын

@@ShusenWang 老师，从公式上看，计算Loss对w求偏导的过程是分两步，第一步是L对Q求偏导，第二步是Q对w求偏导，所以第二步没有y_t对w求偏导，您看对吗？

@ShusenWang 4 жыл бұрын

@@ningzhen2678 我觉得不是这样。按照链式法则，有两条链从 L 到 w：一条是 L--->Q--->w，另一条是 L--->y--->w。应该把结果加起来。然而并没有。一些文章里的说法是假装 y 是常数，虽然它并不是。

@ningzhen2678 4 жыл бұрын

@@ShusenWang 老师，是我犯了低级错误，您说得没错，这里的确应该有第二条求导；正在看您的课程入门RL，感谢您的指正！

@dzrzhou9437 4 жыл бұрын

真的牛皮

@chuanqiwen3023 4 жыл бұрын

老师什么时候出model-based的视频啊

@ShusenWang 4 жыл бұрын

第五节课 alphago 讲的是 model-based。有空我再详细讲一些搜索的方法。

@洋柜圈 4 жыл бұрын

有教科书吗？

@汪省儒 3 жыл бұрын

王老师，有推荐的教材么？

@ShusenWang 3 жыл бұрын

github.com/wangshusen/DRL/tree/master/Notes_CN

@汪省儒 3 жыл бұрын

@@ShusenWang 太好了，老师写教材了。！！！

@Michael-ur3ju 4 жыл бұрын

好奇为什么状态转移函数从s_{t}到s_{t+1}是随机的？

@ShusenWang 4 жыл бұрын

因为环境充满随机性。下一个状态不止取决于玩家的动作，也取决于环境中的随机干扰。

@Michael-ur3ju 4 жыл бұрын

@@ShusenWang 非常感谢老师！

@baobaolong423 3 жыл бұрын

2021/06/17

@曲振青 4 жыл бұрын

zju学弟前来膜拜学长

@jchen5803 4 жыл бұрын

比sutton不知道高到哪裏去了

@buh357 Жыл бұрын

niu bi

@kaiqizhang6524 2 жыл бұрын

老师您好，关于累积回报[discounted return]的定义，视频中0:36处，我发现了两个不同的版本，不是很理解，希望您能解惑：第一种定义的相关书籍： ① 您的slide中 ② 《动手学强化学习》 ISBN：9787115584519 ③ 《深度强化学习：基础、研究与应用》 ISBN：978-7-121-41188-5 均将G_t定义为从R_t 开始第二种定义的相关书籍： ① 《强化学习》 ISBN：978-7-302-53829-5 ② 《Easy RL 强化学习教程》 ISBN：9787115584700 ③ 《深入浅出强化学习：原理入门》 ISBN：978-7-121-32918-0 ④ 《Reinforcement Learning, second edition》 ISBN：9780262039246 (对于G_t使用的是约等符号) 均将G_t定义为从R_{t+1} 开始因为是定义类，且角标不同，所以不太明白