KZ
bin
Негізгі бет
Қазірдің өзінде танымал
Тікелей эфир
Ұнаған бейнелер
Қайтадан қараңыз
Жазылымдар
Кіру
Тіркелу
Ең жақсы KZbin
Фильм және анимация
Автокөліктер мен көлік құралдары
Музыка
Үй жануарлары мен аңдар
Спорт
Ойындар
Комедия
Ойын-сауық
Тәжірибелік нұсқаулар және стиль
Ғылым және технология
深度强化学习(2/5):价值学习 Value-Based Reinforcement Learning
28:12
Intro to Reinforcement Learning 强化学习纲要 第二课 马尔科夫决策过程 上
29:22
كم بصير عمركم عام ٢٠٢٥😍 #shorts #hasanandnour
00:27
Увеличили моцареллу для @Lorenzo.bagnati
00:48
Теперь ты понял, кто Я такой | 5 серия | Сериал "ПрАкурор"
22:48
Do you love Blackpink?🖤🩷
00:23
深度强化学习(1/5):基本概念 Deep Reinforcement Learning (1/5)
Рет қаралды 102,860
Facebook
Twitter
Жүктеу
1
Жазылу 29 М.
Shusen Wang
Күн бұрын
Пікірлер: 167
@ShusenWang
4 жыл бұрын
课件:github.com/wangshusen/DeepLearning 讲义:github.com/wangshusen/DRL/blob/master/Notes_CN/ 下载链接: pan.baidu.com/s/1XpTgny_Vr0LobBsuYF4KkA 密码:x0wb 搬运请注明视频和课件地址。 视频:kzbin.info/www/bejne/rJ7Og4CsnaiKa8U
@menkiguo7805
2 жыл бұрын
我们在写期末paper,我可以cite这两个文档吗?
@ianchen5463
4 жыл бұрын
真棒!这个系列算是听过的最清晰的RL视频了!
@DarkRice
4 жыл бұрын
我见过的、听过的,讲得最好的一个RL的入门教程了,没有之一
@mx8807
Жыл бұрын
讲的非常好,能把复杂问题简单化,就是专家
@stephentauo996
Жыл бұрын
DRL的概念确实多😱,但是老师讲的很清晰连贯,一不小心就听懂了😏,我大意了。
@binaryblack7733
2 жыл бұрын
看的书上推导懵懵懂懂,老师一讲如醍醐灌顶
@zzhaier981
2 жыл бұрын
思路清晰,没有多余的废话。就像千锤百炼的宝剑,锋利而凝练。给力!
@yutingchen4029
4 жыл бұрын
终于有大神把我多年看不懂的讲清楚了!!!!
@haitaozeng4860
3 жыл бұрын
U1S1,讲的真的很好,都是干货,无废话,好理解。
@haihong_
3 жыл бұрын
十分感谢!非常佩服您的语言表达能力!
@rck.5726
2 жыл бұрын
强,无敌!当年看了n个小时deepmind的课没咋搞懂。看你这个瞬间有进步。
@ruruxu1475
3 жыл бұрын
播客视频帖子翻了千百遍终于找到了最通俗易懂的,打call疯狂打call
@JavaCoffee
4 жыл бұрын
哇! 我居然一下就可以聽懂七八成以上...厲害啊! 期待老師更多的教材發布
@adamzeng4166
2 жыл бұрын
王老师太棒了,话语不足以表达我的感恩!
@guoqiongsong
3 жыл бұрын
老师讲得真棒,我已经工作几年,看到这个是醍醐灌顶
@pruzhinki0422
3 жыл бұрын
条理清晰 言简意赅 太棒了这个视频 感谢🙏
@davidz9440
3 жыл бұрын
感谢王老师分享,把复杂概念讲得清晰易懂。discounted return中的折扣系数r概念类似金融领域的折现率。
@zhongwenzhang7665
4 жыл бұрын
感谢!扫除理解障碍,声音也是真好听
@ddp4775
3 жыл бұрын
你的视频真的是我见过最清晰的,谢谢你
@athelstan5048
2 жыл бұрын
王老师真是神仙
@lavidaviva9375
Жыл бұрын
王老师讲的条理很清晰,赞一个!
@leewilliam8606
2 жыл бұрын
相见恨晚,非常有意思!
@liao1559
3 жыл бұрын
讲的挺好的,我们6月2号就期末考试了,看着这个复习很救命
@pengxu8542
4 жыл бұрын
随机性的部分整理得太清楚了,之前总是理解不好,感谢!
@weishiyan4858
3 жыл бұрын
吹爆这个视频,真的很不错
@shyboy523
3 жыл бұрын
谢谢老师,入门一点后再看您的视频更加清晰了
@風城之漣漪
4 жыл бұрын
讲得太清晰了,强烈支持!
@feifeizhang7757
3 жыл бұрын
膜拜大神,要多多在你这学习了!
@adambang3722
Жыл бұрын
很清晰,很优秀的课程。感谢老师
@zehuixuan4703
2 жыл бұрын
老师太强了!我这个大傻瓜都能听得懂
@startrek3779
3 жыл бұрын
Very clear and informative explanation! Thank you so much! Please keep going!
@hanxianghe4446
4 жыл бұрын
除了我爱你,我脑子里蹦不出其他词儿
@shchen16
2 жыл бұрын
乾真的 他講的太好了
@mariagu9967
4 жыл бұрын
感谢老师这么清晰简明的讲解!向您学习!
@respect135
4 жыл бұрын
讲的真好!不火天理难容!
@wangjimmy1847
6 ай бұрын
讲的真心好❤
@tomjamescn
3 жыл бұрын
讲的真的很棒!脉络非常清晰!
@飄飄-k1g
6 ай бұрын
學習了, 感謝分享 繼續看第二集
@tammyknox1388
2 жыл бұрын
王老师讲得很有意思, 而且很清晰!
@姜维克-v1e
3 жыл бұрын
非常感谢,思路清晰到让我感动!
@alvinpan2255
2 жыл бұрын
建议入驻b站!!! b站过来专门点赞!!!
@remote97
4 жыл бұрын
讲的很好
@李宜锟
2 жыл бұрын
清晰易懂,很有帮助!
@yijing7221
4 жыл бұрын
对于入门小白来说真是太适合了~感谢!
@davidwang2533
4 жыл бұрын
讲得非常棒!条理非常清晰。
@bearida
3 жыл бұрын
清晰易懂,讲的太棒了
@cloud31415
3 жыл бұрын
树森哥真棒👍🏻
@kejianshi9196
3 жыл бұрын
请问 22:33 其余的随机变量都被"积掉了" 是什么意思. 没反应过来. 是类似于mariginal distribution那个概念吗. EM中引入latent Z 被积掉不改变P(x)一个意思?
@linus6417
2 жыл бұрын
我也不明白被积掉是啥意思
@carrey9644
2 жыл бұрын
谢谢分享!
@stringanyname4863
3 жыл бұрын
这教程太棒了。谢谢up主。
@-Nikral-
2 жыл бұрын
天 这真的是我能免费听的课吗 感谢王老师555
@matudinglin
4 жыл бұрын
讲的太棒了,非常清晰,爱了!
@alk99
2 жыл бұрын
哇!讲的很生动!
@Mr.Ko0
3 жыл бұрын
非常感谢!。感觉比自己大学的教授讲的抽象的ppt要好太多了。。。
@lonefireblossom
3 жыл бұрын
老师好,我个人觉得这里把可能的action设置为4个:left, right, up, stand(静止不动)更合适一些,因为这也是一个极其高频率的动作。我是想了一会儿才反应过来「静止不动」也算一种动作。 不过这个和强化学习的知识应该关系不大,我的想法是关于讲课方面的,感觉这样讲更合适。
@lonefireblossom
3 жыл бұрын
即使是程序操控的马里奥应该也是要把「静止不动」作为一个可选项的,比如等火焰喷射器喷完火再走。
@ShusenWang
3 жыл бұрын
对,是这样。在ppt上不容易画,就忽略了。
@zhongchuxiong
Жыл бұрын
我听了好几门课,包括David Silver的课程,这门讲的最容易懂。还是王树森牛
@zhongguorenzairiben
4 жыл бұрын
讲得非常清晰明了🙏
@three-min-to-go
2 жыл бұрын
讲的真是太好了!谢谢老师!
@汪省儒
4 жыл бұрын
讲的非常好,期待强化学习系列后续课程的更新。
@tenko3211
2 жыл бұрын
老师讲的很好,👍
@oldmannt
2 жыл бұрын
感谢大佬分享,一键三连
@antoniofang9535
4 жыл бұрын
讲得好好。感谢。
@dizhou5140
4 жыл бұрын
谢谢,非常有用
@7savagemurray401
3 жыл бұрын
老师讲的非常棒
@balconyfeng
4 жыл бұрын
Very helpful. Thank you!
@马鹏森
2 жыл бұрын
感谢老师
@chriszhiranyan6141
3 жыл бұрын
讲的真清晰,纪念一下
@jackofalltrades1202
2 жыл бұрын
Professor Wang,請問一下影片中的兩個有關機率的部份是不是有錯? 2:39 的圖是不是錯了,normal distribution的中間取值點應該是mean,standard normal distribution的中間取值點應該是0。 3:15 的圖和集合好像也不太對,對於PDF而言,圖和集合應該是連續的,這處的圖和集合應該是PMF才對。
@yifeihu
3 жыл бұрын
老师讲得太好了!
@stephensu4000
3 жыл бұрын
感谢王老师
@chencraig702
4 жыл бұрын
感谢分享
@buliaoqing
6 ай бұрын
讲的不错。
@yongshengyu8511
Жыл бұрын
good good study, day day up
@jacobstech1777
Жыл бұрын
太清楚了
@adamwu6650
3 жыл бұрын
太牛了兄弟。可以把难的东西说那么简单
@Antillia123
2 жыл бұрын
老師講得太好了
@gacctom
3 жыл бұрын
感謝分享~棒!
@matrixbackward276
3 жыл бұрын
讲的最好的课程 没有之一
@jimmyhuang8382
3 жыл бұрын
感谢!!
@taosun2643
Жыл бұрын
两个问题,1. 对于policy 和 states transition 两个pdf, Q只和其中的policy function 有关吗, 和state transition 函数无关? 2. Q是从现在到未来无穷的广义积分,但是policy function可能只是其中某段时间是固定的,比如从t 到 t+t' , 在这t‘ 时间段里,policy函数根据环境或是其他因素改变了,这样不断变化的情况,Q可能无法求出解析的形式(如果这个policy的选择,不是有限的离散变量并且跟跟很多实时性的因素相关),则Q只能表示成一个积分或是无穷级数的形式。 那是不是这样的情况在实际Q learning的时候,就无法实现了呢。
@nameno-zh2ox
3 жыл бұрын
神仙up 一人血书求讲讲概率图模型或者Boltzmann机器学习
@AskerCXQ
2 жыл бұрын
太棒了太棒了
@无名-c1f
3 жыл бұрын
老师牛逼!
@xinyuanwang3805
4 жыл бұрын
好厉害
@dzrzhou9437
4 жыл бұрын
太厉害了。大佬啊
@无名-c1f
3 жыл бұрын
一人血书,跪求老师讲讲PPO算法
@yongshengliu6706
3 жыл бұрын
牛逼啊,天才
@chenchen4244
3 жыл бұрын
太棒了
@saminbinkarim6962
2 жыл бұрын
I don't understand chinese but the slides are great
@NikuLeoo
3 жыл бұрын
老师太感谢了。研一感觉自学强化学习的学习曲线太陡峭了QAQ
@wangrichard2140
4 жыл бұрын
太棒了!
@bill970386
3 жыл бұрын
有Q pi、Q star、V pi請問有V star嗎? 代表選擇當前最優動作下的狀態
@kaihan5962
2 жыл бұрын
请问 4:14 求期望的公式里面 f(x) 是什么意思,我看其他资料这个地方就是x
@zw1478
2 жыл бұрын
32:23 我终于知道火影跑背后的机理了。
@yuelinzhurobotics
3 жыл бұрын
跟着大佬学习
@daishuhong
Жыл бұрын
神作
@emmafan713
Жыл бұрын
我是逗你玩的 哈哈哈哈哈
@wangrichard7367
3 жыл бұрын
教授前面说Action和New State都有随机性,这个在policy based learning里比较好理解,但是在DQN里怎么理解呢?DQN是选择对于Q value最大值的action,当Q表收敛的时候,action就不存在随机性了。
@ShusenWang
3 жыл бұрын
你说得对。可以把DQN看做确定策略,做决策的时候没有随机性。
@dzrzhou9437
4 жыл бұрын
老师,想问下之后会讲model based的RL和IRL吗
@houzeyu1584
3 жыл бұрын
對於多變量函數某個緯度,想消除該緯度的辦法就是給他隨機變數化然後取期望值,我看到影片中好多這種招……很難接受,為何可以任意將一個變數改成隨機變數?
@JIMMYLIU5
Жыл бұрын
很有意思的问题!是不是随机变数其实不重要,取期望值就是对某个变量积分,积分以后,这个变量成为一个确定值,或者是期望值。
@zhiweisong4617
3 жыл бұрын
老师您好,看了您的书,有一点疑问困惑了好久。就是为什么同策略(行为策略和目标策略相通)的算法不能用于经验回放呢?先用行为策略收集经验,然后用同样的目标策略更新不行吗?
@ShusenWang
3 жыл бұрын
如果你对优化比较熟悉,就比较容易理解。梯度下降需要在当前变量的地方求梯度,用来更新当前变量。不能用其他地方的变量求梯度,更新当前变量。如果不熟悉优化,只能就这么记住结论了。
28:12
深度强化学习(2/5):价值学习 Value-Based Reinforcement Learning
Shusen Wang
Рет қаралды 40 М.
29:22
Intro to Reinforcement Learning 强化学习纲要 第二课 马尔科夫决策过程 上
Bolei Zhou
Рет қаралды 9 М.
00:27
كم بصير عمركم عام ٢٠٢٥😍 #shorts #hasanandnour
hasan and nour shorts
Рет қаралды 11 МЛН
00:48
Увеличили моцареллу для @Lorenzo.bagnati
Кушать Хочу
Рет қаралды 8 МЛН
22:48
Теперь ты понял, кто Я такой | 5 серия | Сериал "ПрАкурор"
Я ОТ САКЕ
Рет қаралды 556 М.
00:23
Do you love Blackpink?🖤🩷
Karina
Рет қаралды 21 МЛН
25:15
[Chinese] Monte Carlo Algorithms
Shusen Wang
Рет қаралды 29 М.
30:03
2027,人類終結 | 老高與小茉 Mr & Mrs Gao
老高與小茉 Mr & Mrs Gao
Рет қаралды 646 М.
8:40
AI Learns to Walk (deep reinforcement learning)
AI Warehouse
Рет қаралды 9 МЛН
45:49
DRL Lecture 1: Policy Gradient (Review)
Hung-yi Lee
Рет қаралды 164 М.
22:53
深度强化学习(3/5):策略学习 Policy-Based Reinforcement Learning
Shusen Wang
Рет қаралды 33 М.
45:02
【機器學習2021】概述增強式學習 (Reinforcement Learning, RL) (一) - 增強式學習跟機器學習一樣都是三個步驟
Hung-yi Lee
Рет қаралды 78 М.
29:27
Fine tune概念已过时?|强化学习的数学直觉|AGI的自我迭代|开源vs闭源的第一性原理|说胡话的原理|大语言模型技术深度访谈2/3
课代表立正
Рет қаралды 6 М.
18:19
Reinforcement Learning, by the Book
Mutual Information
Рет қаралды 108 М.
36:03
【一张图讲完强化学习原理】 30分钟了解强化学习名词脉络
WINDY Lab
Рет қаралды 9 М.
00:27
كم بصير عمركم عام ٢٠٢٥😍 #shorts #hasanandnour
hasan and nour shorts
Рет қаралды 11 МЛН