深度强化学习(1/5):基本概念 Deep Reinforcement Learning (1/5)

  Рет қаралды 102,859

Shusen Wang

Shusen Wang

Күн бұрын

Пікірлер: 167
@ShusenWang
@ShusenWang 4 жыл бұрын
课件:github.com/wangshusen/DeepLearning 讲义:github.com/wangshusen/DRL/blob/master/Notes_CN/ 下载链接: pan.baidu.com/s/1XpTgny_Vr0LobBsuYF4KkA 密码:x0wb 搬运请注明视频和课件地址。 视频:kzbin.info/www/bejne/rJ7Og4CsnaiKa8U
@menkiguo7805
@menkiguo7805 2 жыл бұрын
我们在写期末paper,我可以cite这两个文档吗?
@ianchen5463
@ianchen5463 4 жыл бұрын
真棒!这个系列算是听过的最清晰的RL视频了!
@DarkRice
@DarkRice 4 жыл бұрын
我见过的、听过的,讲得最好的一个RL的入门教程了,没有之一
@mx8807
@mx8807 Жыл бұрын
讲的非常好,能把复杂问题简单化,就是专家
@stephentauo996
@stephentauo996 Жыл бұрын
DRL的概念确实多😱,但是老师讲的很清晰连贯,一不小心就听懂了😏,我大意了。
@binaryblack7733
@binaryblack7733 2 жыл бұрын
看的书上推导懵懵懂懂,老师一讲如醍醐灌顶
@zzhaier981
@zzhaier981 2 жыл бұрын
思路清晰,没有多余的废话。就像千锤百炼的宝剑,锋利而凝练。给力!
@yutingchen4029
@yutingchen4029 4 жыл бұрын
终于有大神把我多年看不懂的讲清楚了!!!!
@haitaozeng4860
@haitaozeng4860 3 жыл бұрын
U1S1,讲的真的很好,都是干货,无废话,好理解。
@haihong_
@haihong_ 3 жыл бұрын
十分感谢!非常佩服您的语言表达能力!
@rck.5726
@rck.5726 2 жыл бұрын
强,无敌!当年看了n个小时deepmind的课没咋搞懂。看你这个瞬间有进步。
@ruruxu1475
@ruruxu1475 3 жыл бұрын
播客视频帖子翻了千百遍终于找到了最通俗易懂的,打call疯狂打call
@JavaCoffee
@JavaCoffee 4 жыл бұрын
哇! 我居然一下就可以聽懂七八成以上...厲害啊! 期待老師更多的教材發布
@adamzeng4166
@adamzeng4166 2 жыл бұрын
王老师太棒了,话语不足以表达我的感恩!
@guoqiongsong
@guoqiongsong 3 жыл бұрын
老师讲得真棒,我已经工作几年,看到这个是醍醐灌顶
@pruzhinki0422
@pruzhinki0422 3 жыл бұрын
条理清晰 言简意赅 太棒了这个视频 感谢🙏
@davidz9440
@davidz9440 3 жыл бұрын
感谢王老师分享,把复杂概念讲得清晰易懂。discounted return中的折扣系数r概念类似金融领域的折现率。
@zhongwenzhang7665
@zhongwenzhang7665 4 жыл бұрын
感谢!扫除理解障碍,声音也是真好听
@ddp4775
@ddp4775 3 жыл бұрын
你的视频真的是我见过最清晰的,谢谢你
@athelstan5048
@athelstan5048 2 жыл бұрын
王老师真是神仙
@lavidaviva9375
@lavidaviva9375 Жыл бұрын
王老师讲的条理很清晰,赞一个!
@leewilliam8606
@leewilliam8606 2 жыл бұрын
相见恨晚,非常有意思!
@liao1559
@liao1559 3 жыл бұрын
讲的挺好的,我们6月2号就期末考试了,看着这个复习很救命
@pengxu8542
@pengxu8542 4 жыл бұрын
随机性的部分整理得太清楚了,之前总是理解不好,感谢!
@weishiyan4858
@weishiyan4858 3 жыл бұрын
吹爆这个视频,真的很不错
@shyboy523
@shyboy523 3 жыл бұрын
谢谢老师,入门一点后再看您的视频更加清晰了
@風城之漣漪
@風城之漣漪 4 жыл бұрын
讲得太清晰了,强烈支持!
@feifeizhang7757
@feifeizhang7757 3 жыл бұрын
膜拜大神,要多多在你这学习了!
@adambang3722
@adambang3722 Жыл бұрын
很清晰,很优秀的课程。感谢老师
@zehuixuan4703
@zehuixuan4703 2 жыл бұрын
老师太强了!我这个大傻瓜都能听得懂
@startrek3779
@startrek3779 3 жыл бұрын
Very clear and informative explanation! Thank you so much! Please keep going!
@hanxianghe4446
@hanxianghe4446 4 жыл бұрын
除了我爱你,我脑子里蹦不出其他词儿
@shchen16
@shchen16 2 жыл бұрын
乾真的 他講的太好了
@mariagu9967
@mariagu9967 4 жыл бұрын
感谢老师这么清晰简明的讲解!向您学习!
@respect135
@respect135 4 жыл бұрын
讲的真好!不火天理难容!
@wangjimmy1847
@wangjimmy1847 6 ай бұрын
讲的真心好❤
@tomjamescn
@tomjamescn 3 жыл бұрын
讲的真的很棒!脉络非常清晰!
@飄飄-k1g
@飄飄-k1g 6 ай бұрын
學習了, 感謝分享 繼續看第二集
@tammyknox1388
@tammyknox1388 2 жыл бұрын
王老师讲得很有意思, 而且很清晰!
@姜维克-v1e
@姜维克-v1e 3 жыл бұрын
非常感谢,思路清晰到让我感动!
@alvinpan2255
@alvinpan2255 2 жыл бұрын
建议入驻b站!!! b站过来专门点赞!!!
@remote97
@remote97 4 жыл бұрын
讲的很好
@李宜锟
@李宜锟 2 жыл бұрын
清晰易懂,很有帮助!
@yijing7221
@yijing7221 4 жыл бұрын
对于入门小白来说真是太适合了~感谢!
@davidwang2533
@davidwang2533 4 жыл бұрын
讲得非常棒!条理非常清晰。
@bearida
@bearida 3 жыл бұрын
清晰易懂,讲的太棒了
@cloud31415
@cloud31415 3 жыл бұрын
树森哥真棒👍🏻
@kejianshi9196
@kejianshi9196 3 жыл бұрын
请问 22:33 其余的随机变量都被"积掉了" 是什么意思. 没反应过来. 是类似于mariginal distribution那个概念吗. EM中引入latent Z 被积掉不改变P(x)一个意思?
@linus6417
@linus6417 2 жыл бұрын
我也不明白被积掉是啥意思
@carrey9644
@carrey9644 2 жыл бұрын
谢谢分享!
@stringanyname4863
@stringanyname4863 3 жыл бұрын
这教程太棒了。谢谢up主。
@-Nikral-
@-Nikral- 2 жыл бұрын
天 这真的是我能免费听的课吗 感谢王老师555
@matudinglin
@matudinglin 4 жыл бұрын
讲的太棒了,非常清晰,爱了!
@alk99
@alk99 2 жыл бұрын
哇!讲的很生动!
@Mr.Ko0
@Mr.Ko0 3 жыл бұрын
非常感谢!。感觉比自己大学的教授讲的抽象的ppt要好太多了。。。
@lonefireblossom
@lonefireblossom 3 жыл бұрын
老师好,我个人觉得这里把可能的action设置为4个:left, right, up, stand(静止不动)更合适一些,因为这也是一个极其高频率的动作。我是想了一会儿才反应过来「静止不动」也算一种动作。 不过这个和强化学习的知识应该关系不大,我的想法是关于讲课方面的,感觉这样讲更合适。
@lonefireblossom
@lonefireblossom 3 жыл бұрын
即使是程序操控的马里奥应该也是要把「静止不动」作为一个可选项的,比如等火焰喷射器喷完火再走。
@ShusenWang
@ShusenWang 3 жыл бұрын
对,是这样。在ppt上不容易画,就忽略了。
@zhongchuxiong
@zhongchuxiong Жыл бұрын
我听了好几门课,包括David Silver的课程,这门讲的最容易懂。还是王树森牛
@zhongguorenzairiben
@zhongguorenzairiben 4 жыл бұрын
讲得非常清晰明了🙏
@three-min-to-go
@three-min-to-go 2 жыл бұрын
讲的真是太好了!谢谢老师!
@汪省儒
@汪省儒 4 жыл бұрын
讲的非常好,期待强化学习系列后续课程的更新。
@tenko3211
@tenko3211 2 жыл бұрын
老师讲的很好,👍
@oldmannt
@oldmannt 2 жыл бұрын
感谢大佬分享,一键三连
@antoniofang9535
@antoniofang9535 4 жыл бұрын
讲得好好。感谢。
@dizhou5140
@dizhou5140 4 жыл бұрын
谢谢,非常有用
@7savagemurray401
@7savagemurray401 3 жыл бұрын
老师讲的非常棒
@balconyfeng
@balconyfeng 4 жыл бұрын
Very helpful. Thank you!
@马鹏森
@马鹏森 2 жыл бұрын
感谢老师
@chriszhiranyan6141
@chriszhiranyan6141 3 жыл бұрын
讲的真清晰,纪念一下
@jackofalltrades1202
@jackofalltrades1202 2 жыл бұрын
Professor Wang,請問一下影片中的兩個有關機率的部份是不是有錯? 2:39 的圖是不是錯了,normal distribution的中間取值點應該是mean,standard normal distribution的中間取值點應該是0。 3:15 的圖和集合好像也不太對,對於PDF而言,圖和集合應該是連續的,這處的圖和集合應該是PMF才對。
@yifeihu
@yifeihu 3 жыл бұрын
老师讲得太好了!
@stephensu4000
@stephensu4000 3 жыл бұрын
感谢王老师
@chencraig702
@chencraig702 4 жыл бұрын
感谢分享
@buliaoqing
@buliaoqing 6 ай бұрын
讲的不错。
@yongshengyu8511
@yongshengyu8511 Жыл бұрын
good good study, day day up
@jacobstech1777
@jacobstech1777 Жыл бұрын
太清楚了
@adamwu6650
@adamwu6650 3 жыл бұрын
太牛了兄弟。可以把难的东西说那么简单
@Antillia123
@Antillia123 2 жыл бұрын
老師講得太好了
@gacctom
@gacctom 3 жыл бұрын
感謝分享~棒!
@matrixbackward276
@matrixbackward276 3 жыл бұрын
讲的最好的课程 没有之一
@jimmyhuang8382
@jimmyhuang8382 3 жыл бұрын
感谢!!
@taosun2643
@taosun2643 Жыл бұрын
两个问题,1. 对于policy 和 states transition 两个pdf, Q只和其中的policy function 有关吗, 和state transition 函数无关? 2. Q是从现在到未来无穷的广义积分,但是policy function可能只是其中某段时间是固定的,比如从t 到 t+t' , 在这t‘ 时间段里,policy函数根据环境或是其他因素改变了,这样不断变化的情况,Q可能无法求出解析的形式(如果这个policy的选择,不是有限的离散变量并且跟跟很多实时性的因素相关),则Q只能表示成一个积分或是无穷级数的形式。 那是不是这样的情况在实际Q learning的时候,就无法实现了呢。
@nameno-zh2ox
@nameno-zh2ox 3 жыл бұрын
神仙up 一人血书求讲讲概率图模型或者Boltzmann机器学习
@AskerCXQ
@AskerCXQ 2 жыл бұрын
太棒了太棒了
@无名-c1f
@无名-c1f 3 жыл бұрын
老师牛逼!
@xinyuanwang3805
@xinyuanwang3805 4 жыл бұрын
好厉害
@dzrzhou9437
@dzrzhou9437 4 жыл бұрын
太厉害了。大佬啊
@无名-c1f
@无名-c1f 3 жыл бұрын
一人血书,跪求老师讲讲PPO算法
@yongshengliu6706
@yongshengliu6706 3 жыл бұрын
牛逼啊,天才
@chenchen4244
@chenchen4244 3 жыл бұрын
太棒了
@saminbinkarim6962
@saminbinkarim6962 2 жыл бұрын
I don't understand chinese but the slides are great
@NikuLeoo
@NikuLeoo 3 жыл бұрын
老师太感谢了。研一感觉自学强化学习的学习曲线太陡峭了QAQ
@wangrichard2140
@wangrichard2140 4 жыл бұрын
太棒了!
@bill970386
@bill970386 3 жыл бұрын
有Q pi、Q star、V pi請問有V star嗎? 代表選擇當前最優動作下的狀態
@kaihan5962
@kaihan5962 2 жыл бұрын
请问 4:14 求期望的公式里面 f(x) 是什么意思,我看其他资料这个地方就是x
@zw1478
@zw1478 2 жыл бұрын
32:23 我终于知道火影跑背后的机理了。
@yuelinzhurobotics
@yuelinzhurobotics 3 жыл бұрын
跟着大佬学习
@daishuhong
@daishuhong Жыл бұрын
神作
@emmafan713
@emmafan713 Жыл бұрын
我是逗你玩的 哈哈哈哈哈
@wangrichard7367
@wangrichard7367 3 жыл бұрын
教授前面说Action和New State都有随机性,这个在policy based learning里比较好理解,但是在DQN里怎么理解呢?DQN是选择对于Q value最大值的action,当Q表收敛的时候,action就不存在随机性了。
@ShusenWang
@ShusenWang 3 жыл бұрын
你说得对。可以把DQN看做确定策略,做决策的时候没有随机性。
@dzrzhou9437
@dzrzhou9437 4 жыл бұрын
老师,想问下之后会讲model based的RL和IRL吗
@houzeyu1584
@houzeyu1584 3 жыл бұрын
對於多變量函數某個緯度,想消除該緯度的辦法就是給他隨機變數化然後取期望值,我看到影片中好多這種招……很難接受,為何可以任意將一個變數改成隨機變數?
@JIMMYLIU5
@JIMMYLIU5 Жыл бұрын
很有意思的问题!是不是随机变数其实不重要,取期望值就是对某个变量积分,积分以后,这个变量成为一个确定值,或者是期望值。
@zhiweisong4617
@zhiweisong4617 3 жыл бұрын
老师您好,看了您的书,有一点疑问困惑了好久。就是为什么同策略(行为策略和目标策略相通)的算法不能用于经验回放呢?先用行为策略收集经验,然后用同样的目标策略更新不行吗?
@ShusenWang
@ShusenWang 3 жыл бұрын
如果你对优化比较熟悉,就比较容易理解。梯度下降需要在当前变量的地方求梯度,用来更新当前变量。不能用其他地方的变量求梯度,更新当前变量。如果不熟悉优化,只能就这么记住结论了。
Кто круче, как думаешь?
00:44
МЯТНАЯ ФАНТА
Рет қаралды 6 МЛН
Ice Cream or Surprise Trip Around the World?
00:31
Hungry FAM
Рет қаралды 22 МЛН
Motion Planning Lecture 13 (2024)
1:31:42
Intelligent Multi-Robot Coordination Lab
Рет қаралды 178
Reinforcement Learning, by the Book
18:19
Mutual Information
Рет қаралды 108 М.
AI Learns to Walk (deep reinforcement learning)
8:40
AI Warehouse
Рет қаралды 9 МЛН
But what is a neural network? | Deep learning chapter 1
18:40
3Blue1Brown
Рет қаралды 17 МЛН
Reinforcement Learning: Machine Learning Meets Control Theory
26:03
Steve Brunton
Рет қаралды 284 М.
训练AI玩宝可梦红版,结局出人意料
10:38
PP_小月
Рет қаралды 457 М.
Кто круче, как думаешь?
00:44
МЯТНАЯ ФАНТА
Рет қаралды 6 МЛН