深度强化学习(2/5):价值学习 Value-Based Reinforcement Learning

  Рет қаралды 40,896

Shusen Wang

Shusen Wang

Күн бұрын

Пікірлер: 76
@chris--tech
@chris--tech 4 жыл бұрын
正在苦苦的入门,被一堆概念劝退,直到我看到你的视频,国货之光!
@ShusenWang
@ShusenWang 4 жыл бұрын
多谢支持!
@ninglvfeihong
@ninglvfeihong 28 күн бұрын
最近研究深度强化学习,结果被一堆概念搞得云里雾里。没想到能被这几十分钟的视频讲得透透彻彻!感谢分享。
@飄飄-k1g
@飄飄-k1g 5 ай бұрын
讚, 把 已知, 未知, 想要的目標, 都講得清楚 , 數學表示式子都清楚了, 感覺就比較簡單吸收 , 感謝大老分享
@jiahao2709
@jiahao2709 3 жыл бұрын
以前我都只看英文的视频学习,我一直觉得英文的视频质量更高,讲得更好,直到这个系列让我改变了看法!讲的太好了!!!我觉得如果集合一些这样高质量的教授,应该搞个中文版的机器学习暑期学校,目前心中已有的两位就是:王教授和台大李宏毅
@zhichaowang3122
@zhichaowang3122 3 жыл бұрын
这是我见过的,讲的最好的RL视频,思路清晰,深入浅出。也看过很多其他RL教学视频,基本上看5分钟就看不下去了,看shusen的视频可以一口气看完
@yuelinzhurobotics
@yuelinzhurobotics 3 жыл бұрын
一口气看完,这么好的频道,一定要顶起来,入门之光啊
@ShusenWang
@ShusenWang 3 жыл бұрын
讲义:github.com/wangshusen/DRL/blob/master/Notes_CN/
@jasoncheng4555
@jasoncheng4555 3 жыл бұрын
爱您~
@0929zhurong
@0929zhurong 3 жыл бұрын
Your explanation is tons better than my professor's, much appreciation for your high quality content
@derekhsiang6859
@derekhsiang6859 4 жыл бұрын
讲的太好了,RL入门者的福音!这么优秀的课程,希望能被更多人了解!
@Meditator80
@Meditator80 Жыл бұрын
太感恩王老师的讲解了, 深入浅出,完全是效率学习的新次元😄
@drt1524
@drt1524 3 жыл бұрын
老师讲的太好了,是我见过最清晰的RL教学
@DED_Search
@DED_Search 3 жыл бұрын
感谢老师一直重复概念和定义,加深记忆
@xinli8681
@xinli8681 4 жыл бұрын
非常感谢分享,很多东西都变得清晰起来,真的谢谢您!
@startrek3779
@startrek3779 3 жыл бұрын
讲得非常清晰和简练,感谢老师!
@gacctom
@gacctom 3 жыл бұрын
謝謝分享~不斷的提醒概念,很好的教學影片,支持!
@醬-r5p
@醬-r5p 3 жыл бұрын
簡單紀錄 1:30 後一小段的內容: 動作價值函數,Qpi可以衡量當前st做出動作at的好壞程度 最優動作價值函數,可以決策出最好的action 最好的action,才會讓期望分數最大化 DQN learning 使用神經網路,近似最優動作價值函數 可以把最優動作價值函數當作先知,模型依照先知的指示做出動作玩遊戲,就會像開了掛一樣,但實際上我們沒有最佳動作價值函數,但想法就是訓練一個動作價值函數,近似最佳動作價值函數 5:24 DQN 價值學習的方法,用神經網路,算出玩遊戲的最佳動作 稱作 Q(s,a) 神經網路的輸入是狀態 s,神經網路的輸出是神經網路Q認為最好的action -
@luwent7063
@luwent7063 3 жыл бұрын
感谢老师的无私分享!!!
@60s_ShortBuzz
@60s_ShortBuzz Жыл бұрын
请问7:04说的训练好DQN是指给输入的状态都配个正解label, 然后让它fit model对吗? 如果是这样的话,通过人工来看每张图制作正解label,觉得挺累的
@你爺爺-z4w
@你爺爺-z4w Жыл бұрын
王老师讲得真的好
@ll00000000ll
@ll00000000ll 2 жыл бұрын
深入浅出,大师级别!
@phanhomdong
@phanhomdong 6 ай бұрын
老师讲的很通透👍
@ddp4775
@ddp4775 3 жыл бұрын
讲的太好了,强烈要求多出视频!!!
@Jack-dx7qb
@Jack-dx7qb 2 жыл бұрын
天阿 怎麼有人能把RL講得這麼好...
@莫斯科-c5n
@莫斯科-c5n 4 жыл бұрын
宝藏视频博主,已关注。
@terry9026955
@terry9026955 2 жыл бұрын
天啊! 講得太清楚明白了!
@gr82moro
@gr82moro Жыл бұрын
谢谢,讲的很好
@hanxianghe4446
@hanxianghe4446 4 жыл бұрын
除了我爱你,我脑子里蹦不出其他词儿
@DarkRice
@DarkRice 4 жыл бұрын
“你看,它没接住” 这句话亮了。。。
@moonlee4665
@moonlee4665 4 жыл бұрын
Thx! 讲解的非常清楚 明明白白的
@marswang7111
@marswang7111 2 жыл бұрын
谢谢 解惑了
@yutingchen4029
@yutingchen4029 4 жыл бұрын
怒赞!!!!!!!!清楚!!!!
@yongfeng6682
@yongfeng6682 2 жыл бұрын
例子举的太妙了
@jinlk34
@jinlk34 Жыл бұрын
現在這樣agent會選擇分數最高的動作執行,這樣還會有隨機性嗎? 因為上一堂提到policy function會給每個動作一個機率,但agent不一定選擇機率最高的action執行,目的是為了確保有隨機性。
@smithsam3956
@smithsam3956 Ай бұрын
我认为还是少了一些实战内容的讲解。
@aldikroos6290
@aldikroos6290 4 жыл бұрын
研究生第一学期选了强化学习,结果作为一个没基础的小白加上英语授课只勉强及格,现在终于看到学懂的曙光了
@aldikroos6290
@aldikroos6290 4 жыл бұрын
只可惜成绩划不掉了,呜呜呜
@汤灵-l9y
@汤灵-l9y 2 жыл бұрын
非常感谢您的视频,请问可以转载到B站吗(注明出处和来源)
@stephensu4000
@stephensu4000 3 жыл бұрын
请教一下老师: DQN训练出来的是Q*函数,那在用TD算法进行训练的时候,一个动作的回报r是从哪里得到的呢?
@stephensu4000
@stephensu4000 3 жыл бұрын
这个r是不是指Q*函数对于这一步动作的奖励呢?
@rck.5726
@rck.5726 2 жыл бұрын
王老师可不可以讲下multi armed bandit呀
@nengliu5654
@nengliu5654 4 жыл бұрын
老师好,问一个问题:在TD算法中,y_t也是和参数w_t相关的,为什么不对y_t求梯度呢?这一块没有听明白。
@ShusenWang
@ShusenWang 4 жыл бұрын
就像是左脚踩右脚飞起来的轻功。左脚踩右脚的时候,右脚不能动。
@shitongmao5265
@shitongmao5265 11 ай бұрын
请问小qt不是3维的吗?那小yt也是三维的吗?
@pengxu8542
@pengxu8542 4 жыл бұрын
牛b,全是干货
@adamwu6650
@adamwu6650 3 жыл бұрын
太优秀了 救了我
@stephentauo996
@stephentauo996 Жыл бұрын
打卡
@jiahao2709
@jiahao2709 3 жыл бұрын
有个问题,奖励函数我看到有多种定义, Reward =f (s,a) or Reward = f(s) or Reward = f(s,a, s') ,这三种定义都有什么区别呢?
@ShusenWang
@ShusenWang 3 жыл бұрын
常用的奖励假设 f(s, a)或者 f(s, a, s')。这两者的区别在于给定 s 和 a 之后,奖励是唯一确定的还是随机的。
@rjbzzz
@rjbzzz 3 жыл бұрын
@@ShusenWang 王老师,我认为f(s, a)和f(s, a, s')的区别在于是否考虑了s'的状态,sutton的书中称为二元组期望收益和三元组期望收益,从概念上说,奖励都是有概率的,确定的只是概率为1时的情况,这两者的区别不在于奖励是唯一确定的还是随机的。
@shouqinguan3979
@shouqinguan3979 3 жыл бұрын
有代码吗
@jaysonzhou5786
@jaysonzhou5786 4 жыл бұрын
感谢分享!请问26:41第6点,做gradient descent时,TD loss对w的偏导数不应该还含有Q(s_{t+1},a)相关的项吗?为什么只有d_t了呢
@ShusenWang
@ShusenWang 4 жыл бұрын
不是的。这种算法叫做 Q-learning,只对 Q(s_t, a_t) 关于 w 求导,把 y_t 看做常数。 y_t 中的奖励是 r_t,这是唯一观测到的信息,相当于训练数据。算法用一个奖励 r_t 更新 Q(s_t, a_t),这是可行的,因为 Q(s_t, a_t) 依赖于 r_t。但是不应该靠 r_t 更新 Q(s_{t+1}, a),因为 Q(s_{t+1}, a) 与 r_t 无关。y_t 中的 w 来自于Q(s_{t+1}, a_{t+1}) ,所以 更新 y_t 中的 w 是不合理的。
@jaysonzhou5786
@jaysonzhou5786 4 жыл бұрын
@@ShusenWang 明白了,非常感谢!!
@ningzhen2678
@ningzhen2678 4 жыл бұрын
​@@ShusenWang 老师,从公式上看,计算Loss对w求偏导的过程是分两步,第一步是L对Q求偏导,第二步是Q对w求偏导,所以第二步没有y_t对w求偏导,您看对吗?
@ShusenWang
@ShusenWang 4 жыл бұрын
@@ningzhen2678 我觉得不是这样。按照链式法则,有两条链从 L 到 w:一条是 L--->Q--->w,另一条是 L--->y--->w。应该把结果加起来。然而并没有。一些文章里的说法是假装 y 是常数,虽然它并不是。
@ningzhen2678
@ningzhen2678 4 жыл бұрын
​@@ShusenWang 老师,是我犯了低级错误,您说得没错,这里的确应该有第二条求导;正在看您的课程入门RL,感谢您的指正!
@dzrzhou9437
@dzrzhou9437 4 жыл бұрын
真的牛皮
@chuanqiwen3023
@chuanqiwen3023 4 жыл бұрын
老师什么时候出model-based的视频啊
@ShusenWang
@ShusenWang 4 жыл бұрын
第五节课 alphago 讲的是 model-based。有空我再详细讲一些搜索的方法。
@洋柜圈
@洋柜圈 4 жыл бұрын
有教科书吗?
@汪省儒
@汪省儒 3 жыл бұрын
王老师,有推荐的教材么?
@ShusenWang
@ShusenWang 3 жыл бұрын
github.com/wangshusen/DRL/tree/master/Notes_CN
@汪省儒
@汪省儒 3 жыл бұрын
@@ShusenWang 太好了,老师写教材了。!!!
@Michael-ur3ju
@Michael-ur3ju 4 жыл бұрын
好奇为什么状态转移函数从s_{t}到s_{t+1}是随机的?
@ShusenWang
@ShusenWang 4 жыл бұрын
因为环境充满随机性。下一个状态不止取决于玩家的动作,也取决于环境中的随机干扰。
@Michael-ur3ju
@Michael-ur3ju 4 жыл бұрын
@@ShusenWang 非常感谢老师!
@baobaolong423
@baobaolong423 3 жыл бұрын
2021/06/17
@曲振青
@曲振青 4 жыл бұрын
zju学弟前来膜拜学长
@jchen5803
@jchen5803 4 жыл бұрын
比sutton不知道高到哪裏去了
@buh357
@buh357 Жыл бұрын
niu bi
@kaiqizhang6524
@kaiqizhang6524 2 жыл бұрын
老师您好,关于累积回报[discounted return]的定义,视频中0:36处,我发现了两个不同的版本,不是很理解,希望您能解惑: 第一种定义的相关书籍: ① 您的slide中 ② 《动手学强化学习》 ISBN:9787115584519 ③ 《深度强化学习:基础、研究与应用》 ISBN:978-7-121-41188-5 均将G_t定义为从R_t 开始 第二种定义的相关书籍: ① 《强化学习》 ISBN:978-7-302-53829-5 ② 《Easy RL 强化学习教程》 ISBN:9787115584700 ③ 《深入浅出强化学习:原理入门》 ISBN:978-7-121-32918-0 ④ 《Reinforcement Learning, second edition》 ISBN:9780262039246 (对于G_t使用的是约等符号) 均将G_t定义为从R_{t+1} 开始 因为是定义类,且角标不同,所以不太明白
Smart Sigma Kid #funny #sigma
00:33
CRAZY GREAPA
Рет қаралды 8 МЛН
The IMPOSSIBLE Puzzle..
00:55
Stokes Twins
Рет қаралды 183 МЛН
Dueling Network (价值学习高级技巧 3/3)
15:11
Shusen Wang
Рет қаралды 4,9 М.
2027,人類終結 | 老高與小茉 Mr & Mrs Gao
30:03
老高與小茉 Mr & Mrs Gao
Рет қаралды 549 М.
深度强化学习(4/5):Actor-Critic Methods
23:41
Shusen Wang
Рет қаралды 26 М.
强化学习与ChatGPT:PPO 算法介绍和实际应用(中文介绍)
42:32
Pourquoi (布瓜的世界)
Рет қаралды 10 М.
Smart Sigma Kid #funny #sigma
00:33
CRAZY GREAPA
Рет қаралды 8 МЛН