KZ
bin
Негізгі бет
Қазірдің өзінде танымал
Тікелей эфир
Ұнаған бейнелер
Қайтадан қараңыз
Жазылымдар
Кіру
Тіркелу
Ең жақсы KZbin
Фильм және анимация
Автокөліктер мен көлік құралдары
Музыка
Үй жануарлары мен аңдар
Спорт
Ойындар
Комедия
Ойын-сауық
Тәжірибелік нұсқаулар және стиль
Ғылым және технология
深度强化学习(2/5):价值学习 Value-Based Reinforcement Learning
28:12
ChatGPT狂飙:强化学习RLHF与PPO!【ChatGPT】系列第02篇
13:42
Кто круче, как думаешь?
00:44
Ice Cream or Surprise Trip Around the World?
00:31
Теперь ты понял, кто Я такой | 5 серия | Сериал "ПрАкурор"
22:48
ЭКСКЛЮЗИВ: МАЛ екенмін! Некесіз туылған ҚЫЗЫН мойындай ма? 15 мың теңгеге ренжіді!
2:44:02
深度强化学习(1/5):基本概念 Deep Reinforcement Learning (1/5)
Рет қаралды 102,859
Facebook
Twitter
Жүктеу
1
Жазылу 29 М.
Shusen Wang
Күн бұрын
Пікірлер: 167
@ShusenWang
4 жыл бұрын
课件:github.com/wangshusen/DeepLearning 讲义:github.com/wangshusen/DRL/blob/master/Notes_CN/ 下载链接: pan.baidu.com/s/1XpTgny_Vr0LobBsuYF4KkA 密码:x0wb 搬运请注明视频和课件地址。 视频:kzbin.info/www/bejne/rJ7Og4CsnaiKa8U
@menkiguo7805
2 жыл бұрын
我们在写期末paper,我可以cite这两个文档吗?
@ianchen5463
4 жыл бұрын
真棒!这个系列算是听过的最清晰的RL视频了!
@DarkRice
4 жыл бұрын
我见过的、听过的,讲得最好的一个RL的入门教程了,没有之一
@mx8807
Жыл бұрын
讲的非常好,能把复杂问题简单化,就是专家
@stephentauo996
Жыл бұрын
DRL的概念确实多😱,但是老师讲的很清晰连贯,一不小心就听懂了😏,我大意了。
@binaryblack7733
2 жыл бұрын
看的书上推导懵懵懂懂,老师一讲如醍醐灌顶
@zzhaier981
2 жыл бұрын
思路清晰,没有多余的废话。就像千锤百炼的宝剑,锋利而凝练。给力!
@yutingchen4029
4 жыл бұрын
终于有大神把我多年看不懂的讲清楚了!!!!
@haitaozeng4860
3 жыл бұрын
U1S1,讲的真的很好,都是干货,无废话,好理解。
@haihong_
3 жыл бұрын
十分感谢!非常佩服您的语言表达能力!
@rck.5726
2 жыл бұрын
强,无敌!当年看了n个小时deepmind的课没咋搞懂。看你这个瞬间有进步。
@ruruxu1475
3 жыл бұрын
播客视频帖子翻了千百遍终于找到了最通俗易懂的,打call疯狂打call
@JavaCoffee
4 жыл бұрын
哇! 我居然一下就可以聽懂七八成以上...厲害啊! 期待老師更多的教材發布
@adamzeng4166
2 жыл бұрын
王老师太棒了,话语不足以表达我的感恩!
@guoqiongsong
3 жыл бұрын
老师讲得真棒,我已经工作几年,看到这个是醍醐灌顶
@pruzhinki0422
3 жыл бұрын
条理清晰 言简意赅 太棒了这个视频 感谢🙏
@davidz9440
3 жыл бұрын
感谢王老师分享,把复杂概念讲得清晰易懂。discounted return中的折扣系数r概念类似金融领域的折现率。
@zhongwenzhang7665
4 жыл бұрын
感谢!扫除理解障碍,声音也是真好听
@ddp4775
3 жыл бұрын
你的视频真的是我见过最清晰的,谢谢你
@athelstan5048
2 жыл бұрын
王老师真是神仙
@lavidaviva9375
Жыл бұрын
王老师讲的条理很清晰,赞一个!
@leewilliam8606
2 жыл бұрын
相见恨晚,非常有意思!
@liao1559
3 жыл бұрын
讲的挺好的,我们6月2号就期末考试了,看着这个复习很救命
@pengxu8542
4 жыл бұрын
随机性的部分整理得太清楚了,之前总是理解不好,感谢!
@weishiyan4858
3 жыл бұрын
吹爆这个视频,真的很不错
@shyboy523
3 жыл бұрын
谢谢老师,入门一点后再看您的视频更加清晰了
@風城之漣漪
4 жыл бұрын
讲得太清晰了,强烈支持!
@feifeizhang7757
3 жыл бұрын
膜拜大神,要多多在你这学习了!
@adambang3722
Жыл бұрын
很清晰,很优秀的课程。感谢老师
@zehuixuan4703
2 жыл бұрын
老师太强了!我这个大傻瓜都能听得懂
@startrek3779
3 жыл бұрын
Very clear and informative explanation! Thank you so much! Please keep going!
@hanxianghe4446
4 жыл бұрын
除了我爱你,我脑子里蹦不出其他词儿
@shchen16
2 жыл бұрын
乾真的 他講的太好了
@mariagu9967
4 жыл бұрын
感谢老师这么清晰简明的讲解!向您学习!
@respect135
4 жыл бұрын
讲的真好!不火天理难容!
@wangjimmy1847
6 ай бұрын
讲的真心好❤
@tomjamescn
3 жыл бұрын
讲的真的很棒!脉络非常清晰!
@飄飄-k1g
6 ай бұрын
學習了, 感謝分享 繼續看第二集
@tammyknox1388
2 жыл бұрын
王老师讲得很有意思, 而且很清晰!
@姜维克-v1e
3 жыл бұрын
非常感谢,思路清晰到让我感动!
@alvinpan2255
2 жыл бұрын
建议入驻b站!!! b站过来专门点赞!!!
@remote97
4 жыл бұрын
讲的很好
@李宜锟
2 жыл бұрын
清晰易懂,很有帮助!
@yijing7221
4 жыл бұрын
对于入门小白来说真是太适合了~感谢!
@davidwang2533
4 жыл бұрын
讲得非常棒!条理非常清晰。
@bearida
3 жыл бұрын
清晰易懂,讲的太棒了
@cloud31415
3 жыл бұрын
树森哥真棒👍🏻
@kejianshi9196
3 жыл бұрын
请问 22:33 其余的随机变量都被"积掉了" 是什么意思. 没反应过来. 是类似于mariginal distribution那个概念吗. EM中引入latent Z 被积掉不改变P(x)一个意思?
@linus6417
2 жыл бұрын
我也不明白被积掉是啥意思
@carrey9644
2 жыл бұрын
谢谢分享!
@stringanyname4863
3 жыл бұрын
这教程太棒了。谢谢up主。
@-Nikral-
2 жыл бұрын
天 这真的是我能免费听的课吗 感谢王老师555
@matudinglin
4 жыл бұрын
讲的太棒了,非常清晰,爱了!
@alk99
2 жыл бұрын
哇!讲的很生动!
@Mr.Ko0
3 жыл бұрын
非常感谢!。感觉比自己大学的教授讲的抽象的ppt要好太多了。。。
@lonefireblossom
3 жыл бұрын
老师好,我个人觉得这里把可能的action设置为4个:left, right, up, stand(静止不动)更合适一些,因为这也是一个极其高频率的动作。我是想了一会儿才反应过来「静止不动」也算一种动作。 不过这个和强化学习的知识应该关系不大,我的想法是关于讲课方面的,感觉这样讲更合适。
@lonefireblossom
3 жыл бұрын
即使是程序操控的马里奥应该也是要把「静止不动」作为一个可选项的,比如等火焰喷射器喷完火再走。
@ShusenWang
3 жыл бұрын
对,是这样。在ppt上不容易画,就忽略了。
@zhongchuxiong
Жыл бұрын
我听了好几门课,包括David Silver的课程,这门讲的最容易懂。还是王树森牛
@zhongguorenzairiben
4 жыл бұрын
讲得非常清晰明了🙏
@three-min-to-go
2 жыл бұрын
讲的真是太好了!谢谢老师!
@汪省儒
4 жыл бұрын
讲的非常好,期待强化学习系列后续课程的更新。
@tenko3211
2 жыл бұрын
老师讲的很好,👍
@oldmannt
2 жыл бұрын
感谢大佬分享,一键三连
@antoniofang9535
4 жыл бұрын
讲得好好。感谢。
@dizhou5140
4 жыл бұрын
谢谢,非常有用
@7savagemurray401
3 жыл бұрын
老师讲的非常棒
@balconyfeng
4 жыл бұрын
Very helpful. Thank you!
@马鹏森
2 жыл бұрын
感谢老师
@chriszhiranyan6141
3 жыл бұрын
讲的真清晰,纪念一下
@jackofalltrades1202
2 жыл бұрын
Professor Wang,請問一下影片中的兩個有關機率的部份是不是有錯? 2:39 的圖是不是錯了,normal distribution的中間取值點應該是mean,standard normal distribution的中間取值點應該是0。 3:15 的圖和集合好像也不太對,對於PDF而言,圖和集合應該是連續的,這處的圖和集合應該是PMF才對。
@yifeihu
3 жыл бұрын
老师讲得太好了!
@stephensu4000
3 жыл бұрын
感谢王老师
@chencraig702
4 жыл бұрын
感谢分享
@buliaoqing
6 ай бұрын
讲的不错。
@yongshengyu8511
Жыл бұрын
good good study, day day up
@jacobstech1777
Жыл бұрын
太清楚了
@adamwu6650
3 жыл бұрын
太牛了兄弟。可以把难的东西说那么简单
@Antillia123
2 жыл бұрын
老師講得太好了
@gacctom
3 жыл бұрын
感謝分享~棒!
@matrixbackward276
3 жыл бұрын
讲的最好的课程 没有之一
@jimmyhuang8382
3 жыл бұрын
感谢!!
@taosun2643
Жыл бұрын
两个问题,1. 对于policy 和 states transition 两个pdf, Q只和其中的policy function 有关吗, 和state transition 函数无关? 2. Q是从现在到未来无穷的广义积分,但是policy function可能只是其中某段时间是固定的,比如从t 到 t+t' , 在这t‘ 时间段里,policy函数根据环境或是其他因素改变了,这样不断变化的情况,Q可能无法求出解析的形式(如果这个policy的选择,不是有限的离散变量并且跟跟很多实时性的因素相关),则Q只能表示成一个积分或是无穷级数的形式。 那是不是这样的情况在实际Q learning的时候,就无法实现了呢。
@nameno-zh2ox
3 жыл бұрын
神仙up 一人血书求讲讲概率图模型或者Boltzmann机器学习
@AskerCXQ
2 жыл бұрын
太棒了太棒了
@无名-c1f
3 жыл бұрын
老师牛逼!
@xinyuanwang3805
4 жыл бұрын
好厉害
@dzrzhou9437
4 жыл бұрын
太厉害了。大佬啊
@无名-c1f
3 жыл бұрын
一人血书,跪求老师讲讲PPO算法
@yongshengliu6706
3 жыл бұрын
牛逼啊,天才
@chenchen4244
3 жыл бұрын
太棒了
@saminbinkarim6962
2 жыл бұрын
I don't understand chinese but the slides are great
@NikuLeoo
3 жыл бұрын
老师太感谢了。研一感觉自学强化学习的学习曲线太陡峭了QAQ
@wangrichard2140
4 жыл бұрын
太棒了!
@bill970386
3 жыл бұрын
有Q pi、Q star、V pi請問有V star嗎? 代表選擇當前最優動作下的狀態
@kaihan5962
2 жыл бұрын
请问 4:14 求期望的公式里面 f(x) 是什么意思,我看其他资料这个地方就是x
@zw1478
2 жыл бұрын
32:23 我终于知道火影跑背后的机理了。
@yuelinzhurobotics
3 жыл бұрын
跟着大佬学习
@daishuhong
Жыл бұрын
神作
@emmafan713
Жыл бұрын
我是逗你玩的 哈哈哈哈哈
@wangrichard7367
3 жыл бұрын
教授前面说Action和New State都有随机性,这个在policy based learning里比较好理解,但是在DQN里怎么理解呢?DQN是选择对于Q value最大值的action,当Q表收敛的时候,action就不存在随机性了。
@ShusenWang
3 жыл бұрын
你说得对。可以把DQN看做确定策略,做决策的时候没有随机性。
@dzrzhou9437
4 жыл бұрын
老师,想问下之后会讲model based的RL和IRL吗
@houzeyu1584
3 жыл бұрын
對於多變量函數某個緯度,想消除該緯度的辦法就是給他隨機變數化然後取期望值,我看到影片中好多這種招……很難接受,為何可以任意將一個變數改成隨機變數?
@JIMMYLIU5
Жыл бұрын
很有意思的问题!是不是随机变数其实不重要,取期望值就是对某个变量积分,积分以后,这个变量成为一个确定值,或者是期望值。
@zhiweisong4617
3 жыл бұрын
老师您好,看了您的书,有一点疑问困惑了好久。就是为什么同策略(行为策略和目标策略相通)的算法不能用于经验回放呢?先用行为策略收集经验,然后用同样的目标策略更新不行吗?
@ShusenWang
3 жыл бұрын
如果你对优化比较熟悉,就比较容易理解。梯度下降需要在当前变量的地方求梯度,用来更新当前变量。不能用其他地方的变量求梯度,更新当前变量。如果不熟悉优化,只能就这么记住结论了。
28:12
深度强化学习(2/5):价值学习 Value-Based Reinforcement Learning
Shusen Wang
Рет қаралды 40 М.
13:42
ChatGPT狂飙:强化学习RLHF与PPO!【ChatGPT】系列第02篇
ZOMI酱
Рет қаралды 2,7 М.
00:44
Кто круче, как думаешь?
МЯТНАЯ ФАНТА
Рет қаралды 6 МЛН
00:31
Ice Cream or Surprise Trip Around the World?
Hungry FAM
Рет қаралды 22 МЛН
22:48
Теперь ты понял, кто Я такой | 5 серия | Сериал "ПрАкурор"
Я ОТ САКЕ
Рет қаралды 556 М.
2:44:02
ЭКСКЛЮЗИВ: МАЛ екенмін! Некесіз туылған ҚЫЗЫН мойындай ма? 15 мың теңгеге ренжіді!
НТК Show
Рет қаралды 588 М.
1:31:42
Motion Planning Lecture 13 (2024)
Intelligent Multi-Robot Coordination Lab
Рет қаралды 178
18:19
Reinforcement Learning, by the Book
Mutual Information
Рет қаралды 108 М.
8:40
AI Learns to Walk (deep reinforcement learning)
AI Warehouse
Рет қаралды 9 МЛН
1:28:58
【漫士科普】90分钟深度!一口气看明白人工智能和神经网络#人工智能 #神经网络
漫士沉思录
Рет қаралды 69 М.
30:36
【硬核科普】爆肝1万字!以十层理解带你深度解析光的本质!
小学科学SSR
Рет қаралды 518 М.
29:22
Intro to Reinforcement Learning 强化学习纲要 第二课 马尔科夫决策过程 上
Bolei Zhou
Рет қаралды 9 М.
18:40
But what is a neural network? | Deep learning chapter 1
3Blue1Brown
Рет қаралды 17 МЛН
26:03
Reinforcement Learning: Machine Learning Meets Control Theory
Steve Brunton
Рет қаралды 284 М.
10:38
训练AI玩宝可梦红版,结局出人意料
PP_小月
Рет қаралды 457 М.
00:44
Кто круче, как думаешь?
МЯТНАЯ ФАНТА
Рет қаралды 6 МЛН