【機器學習2021】概述增強式學習 (Reinforcement Learning, RL) (一) - 增強式學習跟機器學習一樣都是三個步驟

  Рет қаралды 69,510

Hung-yi Lee

Hung-yi Lee

3 жыл бұрын

slides: speech.ee.ntu.edu.tw/~hylee/m...

Пікірлер: 19
@jasonli7480
@jasonli7480 2 жыл бұрын
谢谢李老师,非常受教!
@hasszhao
@hasszhao Жыл бұрын
看coursera不懂的地方,就来看李老师的视频,回头再看,都明白了。
@wgchris
@wgchris Жыл бұрын
謝謝老師分享
@user-xq3zw5mh7g
@user-xq3zw5mh7g 2 жыл бұрын
非常感谢李宏毅老师
@user-cb8gy1sk1q
@user-cb8gy1sk1q 2 жыл бұрын
被老师的魅力所折服
@haitaozeng4860
@haitaozeng4860 3 жыл бұрын
Pretty impressive.
@steven-lin
@steven-lin 3 жыл бұрын
Awesome
@difeitang1823
@difeitang1823 Жыл бұрын
如果输出是连续值,比如角度、力度之类的,怎么办呢
@user-cu6uq5qb2c
@user-cu6uq5qb2c 2 жыл бұрын
前排板凳
@skywalker0803r
@skywalker0803r 3 жыл бұрын
小板凳坐好了
@williamxing1951
@williamxing1951 2 жыл бұрын
李老师好,请问RL的随机性和VAE的随机性是类似的吗?VAE里面的z/x也都是从一个normal distribution sample 出来的,这个sample的过程和RL action的sample过程的随机性是一样的吗?
@patrickruan2290
@patrickruan2290 2 жыл бұрын
個人理解:當初始時候,這些 action 可能就是任意一種隨機,可能是 uniform distribution 之類的。在訓練之後,因為網路已經給訓練樣本影響,這時候所謂的隨機是類似 softmax 輸出的某一個隨機,它是根據輸入 s,想要往高 rewards 的一個決定,所以可能的一組輸出隨機向量就是 (right, left, fire) = (0.7, 0.1, 0.2) ,就是說 action right 有 70%.... 這樣的決定跟我們一般 supervised learning 分類器任務是不一樣的,分類器如果輸出 (0.7, 0.1, 0.2) ,會 always 決定 object(0.7),也就是沒有隨機性。
@romanlo8404
@romanlo8404 2 жыл бұрын
有同學可以說說 RL 跟 heuristic (啟發式) 的區別嗎?怎麼覺得好像有那麼點相像的影子呢~
@sgeusveuev7691
@sgeusveuev7691 2 жыл бұрын
本质都是makov chain,区别是一个需要训练,一个不需要训练
@Jack-sk9hy
@Jack-sk9hy 3 жыл бұрын
我来了
@nijiasheng711
@nijiasheng711 2 жыл бұрын
讲的比CS224系列的RL好
@user-xj5fp2be6e
@user-xj5fp2be6e Жыл бұрын
谢谢李老师,有个问题咨询下,您讲了RL不一样的是a1是随机的,所以不一样。 但还没理解为什么要随机?
@user-kg5zj6gn7l
@user-kg5zj6gn7l Ай бұрын
引入随机性就是不需要所有的行为都是被计算过的,让随机性的引入会出现新的结果,可能会出现神之一手。又或者是模型对同一种结果不同的判断倒是模型学习到新的可能,增加模型的健壮性。
@KnowNothingJohnSnow
@KnowNothingJohnSnow 2 жыл бұрын
可憐的小叮噹
Would you like a delicious big mooncake? #shorts#Mooncake #China #Chinesefood
00:30
Whyyyy? 😭 #shorts by Leisi Crazy
00:16
Leisi Crazy
Рет қаралды 19 МЛН
【一张图讲完强化学习原理】 30分钟了解强化学习名词脉络
36:03
WestlakeIntelligentRobotics
Рет қаралды 6 М.
An introduction to Reinforcement Learning
16:27
Arxiv Insights
Рет қаралды 642 М.
【生成式AI導論 2024】第1講:生成式AI是什麼?
29:29
MIT 6.S091: Introduction to Deep Reinforcement Learning (Deep RL)
1:07:30
КОПИМ НА АЙФОН В ТГК АРСЕНИЙ СЭДГАПП🛒
0:59
МОЩНЕЕ ТВОЕГО ПК - iPad Pro M4 (feat. Brickspacer)
28:01
ЗЕ МАККЕРС
Рет қаралды 74 М.
Мечта Каждого Геймера
0:59
ЖЕЛЕЗНЫЙ КОРОЛЬ
Рет қаралды 1,2 МЛН