【機器學習2021】概述增強式學習 (Reinforcement Learning, RL) (一) - 增強式學習跟機器學習一樣都是三個步驟

【機器學習2021】概述增強式學習 (Reinforcement Learning, RL) (二) - Policy Gradient 與修課心情

P1 AIGC新范式：Stable Diffusion 1 Stable Diffusion 背后的技术

So Cute 🥰 who is better?

黑天使只对C罗有感觉#short #angel #clown

Он ждал ДВА ГОДА, чтобы преподать наглецу УРОК СКРОМНОСТИ #shorts

🎄✨ Puff is saving Christmas again with his incredible baking skills! #PuffTheBaker #thatlittlepuff

【機器學習2021】概述增強式學習 (Reinforcement Learning, RL) (一) - 增強式學習跟機器學習一樣都是三個步驟

Рет қаралды 79,749

Hung-yi Lee

Hung-yi Lee

Күн бұрын

Пікірлер

@hasszhao 2 жыл бұрын

看coursera不懂的地方，就来看李老师的视频，回头再看，都明白了。

@jasonli7480 3 жыл бұрын

谢谢李老师，非常受教！

@王森-h9m 3 жыл бұрын

被老师的魅力所折服

@Leisure-k2y 3 жыл бұрын

非常感谢李宏毅老师

@GenApe_RDs 2 жыл бұрын

謝謝老師分享

@difeitang1823 2 жыл бұрын

如果输出是连续值，比如角度、力度之类的，怎么办呢

@skywalker0803r

@skywalker0803r 3 жыл бұрын

小板凳坐好了

@williamxing1951

@williamxing1951 2 жыл бұрын

李老师好，请问RL的随机性和VAE的随机性是类似的吗？VAE里面的z/x也都是从一个normal distribution sample 出来的，这个sample的过程和RL action的sample过程的随机性是一样的吗？

@patrickruan2290

@patrickruan2290 2 жыл бұрын

個人理解：當初始時候，這些 action 可能就是任意一種隨機，可能是 uniform distribution 之類的。在訓練之後，因為網路已經給訓練樣本影響，這時候所謂的隨機是類似 softmax 輸出的某一個隨機，它是根據輸入 s，想要往高 rewards 的一個決定，所以可能的一組輸出隨機向量就是（right, left, fire) = (0.7, 0.1, 0.2) ，就是說 action right 有 70%.... 這樣的決定跟我們一般 supervised learning 分類器任務是不一樣的，分類器如果輸出 (0.7, 0.1, 0.2) ，會 always 決定 object(0.7)，也就是沒有隨機性。

@haitaozeng4860

@haitaozeng4860 3 жыл бұрын

Pretty impressive.

@romanlo8404 2 жыл бұрын

有同學可以說說 RL 跟 heuristic (啟發式) 的區別嗎？怎麼覺得好像有那麼點相像的影子呢～

@sgeusveuev7691

@sgeusveuev7691 2 жыл бұрын

本质都是makov chain,区别是一个需要训练，一个不需要训练

@steven-lin 3 жыл бұрын

Awesome

@家仟 2 жыл бұрын

前排板凳

@nijiasheng711 3 жыл бұрын

讲的比CS224系列的RL好

@魏泽坤 Жыл бұрын

谢谢李老师，有个问题咨询下，您讲了RL不一样的是a1是随机的，所以不一样。但还没理解为什么要随机？

@王杨-e7q 8 ай бұрын

引入随机性就是不需要所有的行为都是被计算过的，让随机性的引入会出现新的结果，可能会出现神之一手。又或者是模型对同一种结果不同的判断倒是模型学习到新的可能，增加模型的健壮性。

@XiaozhouTan 6 ай бұрын

GOAT

@Jack-sk9hy 3 жыл бұрын

我来了

@KnowNothingJohnSnow

@KnowNothingJohnSnow 3 жыл бұрын

可憐的小叮噹

【機器學習2021】概述增強式學習 (Reinforcement Learning, RL) (二) - Policy Gradient 與修課心情

41:14

【機器學習2021】概述增強式學習 (Reinforcement Learning, RL) (二) - Policy Gradient 與修課心情

Hung-yi Lee

Рет қаралды 52 М.

P1 AIGC新范式：Stable Diffusion 1 Stable Diffusion 背后的技术

50:37

P1 AIGC新范式：Stable Diffusion 1 Stable Diffusion 背后的技术

damoxing001

Рет қаралды 20

So Cute 🥰 who is better?

00:15

So Cute 🥰 who is better?

dednahype

Рет қаралды 19 МЛН

黑天使只对C罗有感觉#short #angel #clown

00:39

黑天使只对C罗有感觉#short #angel #clown

Super Beauty team

Рет қаралды 36 МЛН

Он ждал ДВА ГОДА, чтобы преподать наглецу УРОК СКРОМНОСТИ #shorts

01:00

Он ждал ДВА ГОДА, чтобы преподать наглецу УРОК СКРОМНОСТИ #shorts

BalcevMMA_BOXING

Рет қаралды 10 МЛН

🎄✨ Puff is saving Christmas again with his incredible baking skills! #PuffTheBaker #thatlittlepuff

00:42

🎄✨ Puff is saving Christmas again with his incredible baking skills! #PuffTheBaker #thatlittlepuff

That Little Puff

Рет қаралды 24 МЛН

【機器學習2021】元學習 Meta Learning (一) - 元學習跟機器學習一樣也是三個步驟

46:20

【機器學習2021】元學習 Meta Learning (一) - 元學習跟機器學習一樣也是三個步驟

Hung-yi Lee

Рет қаралды 53 М.

【機器學習2021】概述增強式學習 (Reinforcement Learning, RL) (三) - Actor-Critic

34:41

【機器學習2021】概述增強式學習 (Reinforcement Learning, RL) (三) - Actor-Critic

Hung-yi Lee

Рет қаралды 42 М.

【機器學習2021】Transformer (上)

32:48

【機器學習2021】Transformer (上)

Hung-yi Lee

Рет қаралды 220 М.

CycleGAN Explained in 5 Minutes!

4:37

CycleGAN Explained in 5 Minutes!

Matchue

Рет қаралды 39 М.

【機器學習2021】概述增強式學習 (Reinforcement Learning, RL) (五) - 如何從示範中學習？逆向增強式學習 (Inverse RL)

27:08

【機器學習2021】概述增強式學習 (Reinforcement Learning, RL) (五) - 如何從示範中學習？逆向增強式學習 (Inverse RL)

Hung-yi Lee

Рет қаралды 24 М.

DRL Lecture 1: Policy Gradient (Review)

45:49

DRL Lecture 1: Policy Gradient (Review)

Hung-yi Lee

Рет қаралды 165 М.

【機器學習2021】預測本頻道觀看人數 (下) - 深度學習基本概念簡介

58:35

【機器學習2021】預測本頻道觀看人數 (下) - 深度學習基本概念簡介

Hung-yi Lee

Рет қаралды 232 М.

【機器學習2021】課程結語 - 最後的業配並改編《為學一首示子姪》作結

27:41

【機器學習2021】課程結語 - 最後的業配並改編《為學一首示子姪》作結

Hung-yi Lee

Рет қаралды 45 М.

【機器學習2021】元學習 Meta Learning (二) - 萬物皆可 Meta

31:37

【機器學習2021】元學習 Meta Learning (二) - 萬物皆可 Meta

Hung-yi Lee

Рет қаралды 29 М.

【機器學習2021】卷積神經網路 (Convolutional Neural Networks, CNN)

55:39

【機器學習2021】卷積神經網路 (Convolutional Neural Networks, CNN)

Hung-yi Lee

Рет қаралды 288 М.

So Cute 🥰 who is better?

00:15

So Cute 🥰 who is better?

dednahype

Рет қаралды 19 МЛН