RNN模型与NLP应用(4/9):LSTM模型

  Рет қаралды 26,348

Shusen Wang

Shusen Wang

Күн бұрын

Пікірлер: 66
@harrylee27
@harrylee27 2 жыл бұрын
OMG,10分钟就搞懂LSTM了,之前上了几个小时的课也云里雾里的,这10分钟基本就搞懂了,厉害厉害!我觉得这个讲解好的地方是,不说虚的,不来公式,从问题出发;用带颜色的矩阵块来表示数据shape,其实这些一旦搞明白了,那些形而上的东西(输入门,遗忘门,输出门)就不用费力解释了;最后还有代码实现,一以贯之的测试用例和直观的性能比较。传道授业的至高境界,祛魅!
@shaunchen284
@shaunchen284 Жыл бұрын
同感
@deerbeau
@deerbeau 3 жыл бұрын
讲得真好,一句废话没有,全是干货!华人之光。
@jarorkwong8042
@jarorkwong8042 3 жыл бұрын
发现了宝藏UP主,讲解太牛逼了!别看讲得慢条斯理,但是却十分细致!短短的十分钟里不光详细介绍了模型内部的计算过程,而且有keras的实现~
@meolalittlewild5176
@meolalittlewild5176 4 жыл бұрын
很棒!快速入门和了解特别合适。看完去看paper也有一定基础,不至于啥也不懂。
@haemonyang6278
@haemonyang6278 5 ай бұрын
講得真棒 真幸運能在台灣看到您的視頻
@chia-hengsun7381
@chia-hengsun7381 3 жыл бұрын
超級乾貨呀! 懇請老師永遠上影片在架上! 造福廣大的學生及工程師
@chia-hengsun7381
@chia-hengsun7381 3 жыл бұрын
又看了一次! 真的讚
@dongni1106
@dongni1106 2 жыл бұрын
王老师,讲课高手。简洁,有逻辑。
@coco-il4gr
@coco-il4gr 2 жыл бұрын
宝藏老师
@shenshen4402
@shenshen4402 3 жыл бұрын
不知道为什么最近不更新了,希望看到更多视频。可以说一些paper和经典方法。希望多一些强化和graph的讲解
@JeremyZ1036
@JeremyZ1036 3 жыл бұрын
干货满满!还没有广告,太良心了
@rayshezzy436
@rayshezzy436 2 жыл бұрын
感谢分享,非常不错的教程 Thanks for sharing. Nice tutorial!
@赵勇-u4n
@赵勇-u4n Жыл бұрын
碰到好的讲解我从来不溢美之词。但是这个视频真觉得一般,博主只告诉如何操作和实现,至于LSTM深层次的原理和为什么实现长短起记忆都没有讲解,希望博主继续努力呀
@shirleyyu3482
@shirleyyu3482 2 жыл бұрын
卧槽讲得好好,发现宝藏了
@mflow502
@mflow502 2 жыл бұрын
学习了,教学节奏特别好
@wangrichard2140
@wangrichard2140 4 жыл бұрын
太好了!我要把老师的视频都学完
@tomleo6390
@tomleo6390 4 жыл бұрын
讲解得非常清晰!感谢!
@lmnefg121
@lmnefg121 3 жыл бұрын
我补充一点,forget,input和output除了乘系数矩阵外,有可能加偏移量。
@ngrokdocker2945
@ngrokdocker2945 8 ай бұрын
太棒了!
@principwty0520
@principwty0520 Жыл бұрын
讲得真好!
@bnglr
@bnglr 2 жыл бұрын
RNN、LSTM里的input x,hidden state,output,所有的这些东西,都必须是1维的向量吗?不能是矩阵?
@TV-vu9fg
@TV-vu9fg 3 жыл бұрын
老师,我有个问题,lstm层的output shape是(None, 32), 为什么说是一个向量而不是矩阵呢?shape的第一个None指的是?
@ShusenWang
@ShusenWang 3 жыл бұрын
输出是矩阵还是向量,取决于return_sequence是true还是false。
@BC-gi4ty
@BC-gi4ty 3 жыл бұрын
very clean explanation
@amyzhang8155
@amyzhang8155 2 жыл бұрын
难怪是又严格,难拿A,但是学生又选你的课🎉
@ericwang5504
@ericwang5504 3 жыл бұрын
非常感谢!
@fzzying
@fzzying 4 жыл бұрын
期待下一课
@yuanyao1774
@yuanyao1774 4 жыл бұрын
老师,我是看完RNN的视频后看的LSTM,然后我想咨询一下LSTM中的Ct-1是什么信息呢?为什么RNN中没有用到Ct-1,LSTM中却多了个Ct-1呢?
@jiazhenhu5959
@jiazhenhu5959 3 жыл бұрын
比大部分视频和教程讲得清晰也好理解。感觉可以增加一些更intuitive的讲解,就更清楚啦
@lusen9719
@lusen9719 4 жыл бұрын
感谢老师,讲的太好了!
@xinliu4785
@xinliu4785 2 жыл бұрын
讲得太好了!!!!!
@xiaoyuyan6359
@xiaoyuyan6359 4 жыл бұрын
谢谢老师!讲的很详细
@bnglr
@bnglr 4 жыл бұрын
h(t-1)都是被上一个cell的tanh映射到了-1到+1之间,那么x(t)应该也是在embedding后同样缩放吧,否则拼接起来有点奇怪
@DED_Search
@DED_Search 4 жыл бұрын
还有一个naive问题,视频最后说到在lstm层用到dropout 并没有提升performance,解决overfitting。 • Training Accuracy: 91.8% • Validation Accuracy: 88.7% • Test Accuracy: 88.6% 请问根据这组数据,如何判断overfitting?谢谢
@ShusenWang
@ShusenWang 4 жыл бұрын
从这看不出overfitting。要把模型参数变大和变小,看validiation变好还是变坏。如果模型变小,validation 变好,就知道之前发生了overfitting。
@DED_Search
@DED_Search 4 жыл бұрын
@@ShusenWang 老师你是指比如 x 和 h 的dimension么?我记得你讲过几次 他们的dimension是需要 cross validation 来确定的。他们的大小决定模型参数的数量。参数越多模型越复杂越容易over fit. 不知道我理解的对不对 谢谢
@ShusenWang
@ShusenWang 4 жыл бұрын
@@DED_Search 对的
@renesmt6423
@renesmt6423 3 жыл бұрын
感谢分享!
@xinglinli9874
@xinglinli9874 2 жыл бұрын
讲的是真的细
@liangxu208
@liangxu208 4 жыл бұрын
谢谢王老师
@yichaohou5406
@yichaohou5406 4 жыл бұрын
课件做的太好啦,讲的也清晰!这些都是官方课件吗,还是您自己做的,感觉用tex做这些课件也是很费功夫的,非常感谢!
@ShusenWang
@ShusenWang 4 жыл бұрын
课件是我自己做的。有些图是别人的,我都表明出处了。
@yichaohou5406
@yichaohou5406 4 жыл бұрын
@@ShusenWang 前辈辛苦,视频做的这么好,建议直接发国内B站,KZbin 对于国内人来说还是用的少,另外在B站看到有人转发你的视频,不知是否有授权
@ShusenWang
@ShusenWang 4 жыл бұрын
@@yichaohou5406 多谢~ 谁都可以转发,我不反对。我自己不想往B站发。
@zhiweisong4617
@zhiweisong4617 3 жыл бұрын
老师您好,我直观上没有理解为什么LSTM 相比与simple RNN 多了一个C传输效果就变好了。按理说h_t = outputGate * tanh(c_t), 也没有额外的信息啊。老师能稍微给一些intuitive 的理解嘛?
@ShusenWang
@ShusenWang 3 жыл бұрын
记忆力变长了。每做一次矩阵乘法+激活函数,信息就会丢一些。LSTM的c不做矩阵乘法,只有elementwise乘法。
@pingzhang2084
@pingzhang2084 3 жыл бұрын
@@ShusenWang 从h_{t-1}和x_t计算\tilde{C_t}不是要做矩阵乘法吗。C是过往\tilde{C_t}的加权吧,不也要经过矩阵乘法吗
@ShusenWang
@ShusenWang 3 жыл бұрын
@@pingzhang2084 你说的是新的元素\tilde{C_t}是如何计算出来的。我的意思是从旧的 C 到新的 C 没有经过矩阵乘法,这样旧的信息损失很少,可以到达很多步之后,记忆变长。
@pingzhang2084
@pingzhang2084 3 жыл бұрын
@@ShusenWang 谢谢
@ximingdong503
@ximingdong503 3 жыл бұрын
老师 打扰一下 两个问题, 1,Ct 是不是 要复制2次呀 一个是 給下一个 state 用的 还有一个是 用在这个时态的 output? 2, 我不太理解 tanh用在 ct 那地方 就是 output gate 那地方 为什么 还要 用 tanh 是为了 让 output 的值确保在 -1 和 1 之间吗 ? 就是视频 7.45那地方? 谢谢
@caiyu538
@caiyu538 Жыл бұрын
👍
@weibovey1238
@weibovey1238 4 жыл бұрын
请问一下,Output Gate那部分,我们计算得到的Ot是为了决定从Ct更新到ht的值呢?还是决定从Ct-1更新到ht的值呢???感觉在上一步Ct已经完成了更新,后续就和Ct-1没什么关系了???
@ShusenWang
@ShusenWang 4 жыл бұрын
Ouput Gate的结果作为输出。在机器翻译或者文本生成的应用里,output gate输出的向量要用于预测下一个字符
@weibovey1238
@weibovey1238 4 жыл бұрын
@@ShusenWang 哦哦!那这个Output Gate也会随着Ct一起更新最新的ht,对么???
@DED_Search
@DED_Search 4 жыл бұрын
王老师你好,我有个关于output dimension的问题,在视频9:55分。embedding层的输出是(none, 500, 32).也就是说 每个电影评论 (我们只保留最后500个单词,当然如果不够就用zero padding) 的每一个单词都用一个32 dimension的vector来表示。我记得training数据是20000个,那也就是说我们有20000个电影评论。那实际上embedding的输出是20000个50by32的矩阵么?不好意识,问题可能比较naive。谢谢
@ShusenWang
@ShusenWang 4 жыл бұрын
实现的时候不用管 20000。训练和测试的时候都是用mini-batch。如果batch size = 8,那么每次输出的就是 8x500x32 的tensor. 由于batch size到了训练和测试时候才知道,所以用 none 。
@DED_Search
@DED_Search 4 жыл бұрын
@@ShusenWang 明白了 非常感谢!
@石海军-y3l
@石海军-y3l Жыл бұрын
想问问Ct到底是什么呀
@sciab3674
@sciab3674 3 ай бұрын
牛掰
@chushao
@chushao 3 жыл бұрын
字正腔圆,字字珠玑
@jingpan945
@jingpan945 3 жыл бұрын
真的^^
@AGI.Trainer
@AGI.Trainer Жыл бұрын
lstm的参数也太少了
@zddroy1025
@zddroy1025 3 жыл бұрын
我想做你的小弟
@DangZijian
@DangZijian 11 ай бұрын
感谢老师,讲的真好!!
@xiangwang4462
@xiangwang4462 4 жыл бұрын
谢谢老师!
RNN模型与NLP应用(5/9):多层RNN、双向RNN、预训练
12:16
RNN模型与NLP应用(3/9):Simple RNN模型
20:50
Shusen Wang
Рет қаралды 21 М.
When Cucumbers Meet PVC Pipe The Results Are Wild! 🤭
00:44
Crafty Buddy
Рет қаралды 57 МЛН
БУ, ИСПУГАЛСЯ?? #shorts
00:22
Паша Осадчий
Рет қаралды 2,9 МЛН
RNN模型与NLP应用(8/9):Attention (注意力机制)
16:51
Shusen Wang
Рет қаралды 31 М.
台大資訊 深度學習之應用 | ADL 4: Gating Mechanism 了解LSTM與GRU的細節
30:11
8.4 LSTM Architecture
16:04
CCU MOOCs
Рет қаралды 4,2 М.
Long Short-Term Memory (LSTM), Clearly Explained
20:45
StatQuest with Josh Starmer
Рет қаралды 603 М.
RNN模型与NLP应用(1/9):数据处理基础
10:57
Shusen Wang
Рет қаралды 34 М.