KZ
bin
Негізгі бет
Қазірдің өзінде танымал
Тікелей эфир
Ұнаған бейнелер
Қайтадан қараңыз
Жазылымдар
Кіру
Тіркелу
Ең жақсы KZbin
Фильм және анимация
Автокөліктер мен көлік құралдары
Музыка
Үй жануарлары мен аңдар
Спорт
Ойындар
Комедия
Ойын-сауық
Тәжірибелік нұсқаулар және стиль
Ғылым және технология
【機器學習2021】概述增強式學習 (Reinforcement Learning, RL) (二) - Policy Gradient 與修課心情
41:14
P1 AIGC新范式:Stable Diffusion 1 Stable Diffusion 背后的技术
50:37
So Cute 🥰 who is better?
00:15
黑天使只对C罗有感觉#short #angel #clown
00:39
Он ждал ДВА ГОДА, чтобы преподать наглецу УРОК СКРОМНОСТИ #shorts
01:00
🎄✨ Puff is saving Christmas again with his incredible baking skills! #PuffTheBaker #thatlittlepuff
00:42
【機器學習2021】概述增強式學習 (Reinforcement Learning, RL) (一) - 增強式學習跟機器學習一樣都是三個步驟
Рет қаралды 79,749
Facebook
Twitter
Жүктеу
1
Жазылу 250 М.
Hung-yi Lee
Күн бұрын
Пікірлер
@hasszhao
2 жыл бұрын
看coursera不懂的地方,就来看李老师的视频,回头再看,都明白了。
@jasonli7480
3 жыл бұрын
谢谢李老师,非常受教!
@王森-h9m
3 жыл бұрын
被老师的魅力所折服
@Leisure-k2y
3 жыл бұрын
非常感谢李宏毅老师
@GenApe_RDs
2 жыл бұрын
謝謝老師分享
@difeitang1823
2 жыл бұрын
如果输出是连续值,比如角度、力度之类的,怎么办呢
@skywalker0803r
3 жыл бұрын
小板凳坐好了
@williamxing1951
2 жыл бұрын
李老师好,请问RL的随机性和VAE的随机性是类似的吗?VAE里面的z/x也都是从一个normal distribution sample 出来的,这个sample的过程和RL action的sample过程的随机性是一样的吗?
@patrickruan2290
2 жыл бұрын
個人理解:當初始時候,這些 action 可能就是任意一種隨機,可能是 uniform distribution 之類的。在訓練之後,因為網路已經給訓練樣本影響,這時候所謂的隨機是類似 softmax 輸出的某一個隨機,它是根據輸入 s,想要往高 rewards 的一個決定,所以可能的一組輸出隨機向量就是 (right, left, fire) = (0.7, 0.1, 0.2) ,就是說 action right 有 70%.... 這樣的決定跟我們一般 supervised learning 分類器任務是不一樣的,分類器如果輸出 (0.7, 0.1, 0.2) ,會 always 決定 object(0.7),也就是沒有隨機性。
@haitaozeng4860
3 жыл бұрын
Pretty impressive.
@romanlo8404
2 жыл бұрын
有同學可以說說 RL 跟 heuristic (啟發式) 的區別嗎?怎麼覺得好像有那麼點相像的影子呢~
@sgeusveuev7691
2 жыл бұрын
本质都是makov chain,区别是一个需要训练,一个不需要训练
@steven-lin
3 жыл бұрын
Awesome
@家仟
2 жыл бұрын
前排板凳
@nijiasheng711
3 жыл бұрын
讲的比CS224系列的RL好
@魏泽坤
Жыл бұрын
谢谢李老师,有个问题咨询下,您讲了RL不一样的是a1是随机的,所以不一样。 但还没理解为什么要随机?
@王杨-e7q
8 ай бұрын
引入随机性就是不需要所有的行为都是被计算过的,让随机性的引入会出现新的结果,可能会出现神之一手。又或者是模型对同一种结果不同的判断倒是模型学习到新的可能,增加模型的健壮性。
@XiaozhouTan
6 ай бұрын
GOAT
@Jack-sk9hy
3 жыл бұрын
我来了
@KnowNothingJohnSnow
3 жыл бұрын
可憐的小叮噹
41:14
【機器學習2021】概述增強式學習 (Reinforcement Learning, RL) (二) - Policy Gradient 與修課心情
Hung-yi Lee
Рет қаралды 52 М.
50:37
P1 AIGC新范式:Stable Diffusion 1 Stable Diffusion 背后的技术
damoxing001
Рет қаралды 20
00:15
So Cute 🥰 who is better?
dednahype
Рет қаралды 19 МЛН
00:39
黑天使只对C罗有感觉#short #angel #clown
Super Beauty team
Рет қаралды 36 МЛН
01:00
Он ждал ДВА ГОДА, чтобы преподать наглецу УРОК СКРОМНОСТИ #shorts
BalcevMMA_BOXING
Рет қаралды 10 МЛН
00:42
🎄✨ Puff is saving Christmas again with his incredible baking skills! #PuffTheBaker #thatlittlepuff
That Little Puff
Рет қаралды 24 МЛН
46:20
【機器學習2021】元學習 Meta Learning (一) - 元學習跟機器學習一樣也是三個步驟
Hung-yi Lee
Рет қаралды 53 М.
34:41
【機器學習2021】概述增強式學習 (Reinforcement Learning, RL) (三) - Actor-Critic
Hung-yi Lee
Рет қаралды 42 М.
32:48
【機器學習2021】Transformer (上)
Hung-yi Lee
Рет қаралды 220 М.
4:37
CycleGAN Explained in 5 Minutes!
Matchue
Рет қаралды 39 М.
27:08
【機器學習2021】概述增強式學習 (Reinforcement Learning, RL) (五) - 如何從示範中學習?逆向增強式學習 (Inverse RL)
Hung-yi Lee
Рет қаралды 24 М.
45:49
DRL Lecture 1: Policy Gradient (Review)
Hung-yi Lee
Рет қаралды 165 М.
58:35
【機器學習2021】預測本頻道觀看人數 (下) - 深度學習基本概念簡介
Hung-yi Lee
Рет қаралды 232 М.
27:41
【機器學習2021】課程結語 - 最後的業配並改編《為學一首示子姪》作結
Hung-yi Lee
Рет қаралды 45 М.
31:37
【機器學習2021】元學習 Meta Learning (二) - 萬物皆可 Meta
Hung-yi Lee
Рет қаралды 29 М.
55:39
【機器學習2021】卷積神經網路 (Convolutional Neural Networks, CNN)
Hung-yi Lee
Рет қаралды 288 М.
00:15
So Cute 🥰 who is better?
dednahype
Рет қаралды 19 МЛН