RNN模型与NLP应用(4/9)：LSTM模型

Рет қаралды 26,373

Shusen Wang

Күн бұрын

Пікірлер: 66

@deerbeau 3 жыл бұрын

讲得真好，一句废话没有，全是干货！华人之光。

@harrylee27 2 жыл бұрын

OMG，10分钟就搞懂LSTM了，之前上了几个小时的课也云里雾里的，这10分钟基本就搞懂了，厉害厉害！我觉得这个讲解好的地方是，不说虚的，不来公式，从问题出发；用带颜色的矩阵块来表示数据shape，其实这些一旦搞明白了，那些形而上的东西（输入门，遗忘门，输出门）就不用费力解释了；最后还有代码实现，一以贯之的测试用例和直观的性能比较。传道授业的至高境界，祛魅！

@shaunchen284 Жыл бұрын

同感

@jarorkwong8042 3 жыл бұрын

发现了宝藏UP主，讲解太牛逼了！别看讲得慢条斯理，但是却十分细致！短短的十分钟里不光详细介绍了模型内部的计算过程，而且有keras的实现~

@meolalittlewild5176 4 жыл бұрын

很棒！快速入门和了解特别合适。看完去看paper也有一定基础，不至于啥也不懂。

@haemonyang6278 5 ай бұрын

講得真棒真幸運能在台灣看到您的視頻

@chia-hengsun7381 3 жыл бұрын

超級乾貨呀! 懇請老師永遠上影片在架上! 造福廣大的學生及工程師

@chia-hengsun7381 3 жыл бұрын

又看了一次! 真的讚

@dongni1106 2 жыл бұрын

王老师，讲课高手。简洁，有逻辑。

@JeremyZ1036 3 жыл бұрын

干货满满！还没有广告，太良心了

@rayshezzy436 2 жыл бұрын

感谢分享，非常不错的教程 Thanks for sharing. Nice tutorial!

@coco-il4gr 2 жыл бұрын

宝藏老师

@shenshen4402 3 жыл бұрын

不知道为什么最近不更新了，希望看到更多视频。可以说一些paper和经典方法。希望多一些强化和graph的讲解

@mflow502 2 жыл бұрын

学习了，教学节奏特别好

@shirleyyu3482 2 жыл бұрын

卧槽讲得好好，发现宝藏了

@wangrichard2140 4 жыл бұрын

太好了！我要把老师的视频都学完

@赵勇-u4n Жыл бұрын

碰到好的讲解我从来不溢美之词。但是这个视频真觉得一般，博主只告诉如何操作和实现，至于LSTM深层次的原理和为什么实现长短起记忆都没有讲解，希望博主继续努力呀

@tomleo6390 4 жыл бұрын

讲解得非常清晰！感谢！

@principwty0520 Жыл бұрын

讲得真好!

@amyzhang8155 2 жыл бұрын

难怪是又严格，难拿A，但是学生又选你的课🎉

@fzzying 4 жыл бұрын

期待下一课

@TV-vu9fg 3 жыл бұрын

老师，我有个问题，lstm层的output shape是(None, 32), 为什么说是一个向量而不是矩阵呢？shape的第一个None指的是？

@ShusenWang 3 жыл бұрын

输出是矩阵还是向量，取决于return_sequence是true还是false。

@ericwang5504 3 жыл бұрын

非常感谢！

@lusen9719 4 жыл бұрын

感谢老师，讲的太好了！

@ngrokdocker2945 8 ай бұрын

太棒了！

@xiaoyuyan6359 4 жыл бұрын

谢谢老师！讲的很详细

@BC-gi4ty 3 жыл бұрын

very clean explanation

@xinliu4785 2 жыл бұрын

讲得太好了！！！！！

@yichaohou5406 4 жыл бұрын

课件做的太好啦，讲的也清晰！这些都是官方课件吗，还是您自己做的，感觉用tex做这些课件也是很费功夫的，非常感谢！

@ShusenWang 4 жыл бұрын

课件是我自己做的。有些图是别人的，我都表明出处了。

@yichaohou5406 4 жыл бұрын

@@ShusenWang 前辈辛苦，视频做的这么好，建议直接发国内B站，KZbin 对于国内人来说还是用的少，另外在B站看到有人转发你的视频，不知是否有授权

@ShusenWang 4 жыл бұрын

@@yichaohou5406 多谢~ 谁都可以转发，我不反对。我自己不想往B站发。

@ximingdong503 3 жыл бұрын

老师打扰一下两个问题， 1，Ct 是不是要复制2次呀一个是給下一个 state 用的还有一个是用在这个时态的 output？ 2，我不太理解 tanh用在 ct 那地方就是 output gate 那地方为什么还要用 tanh 是为了让 output 的值确保在 -1 和 1 之间吗？就是视频 7.45那地方？谢谢

@lmnefg121 3 жыл бұрын

我补充一点，forget，input和output除了乘系数矩阵外，有可能加偏移量。

@bnglr 2 жыл бұрын

RNN、LSTM里的input x，hidden state，output，所有的这些东西，都必须是1维的向量吗？不能是矩阵？

@jiazhenhu5959 3 жыл бұрын

比大部分视频和教程讲得清晰也好理解。感觉可以增加一些更intuitive的讲解，就更清楚啦

@xinglinli9874 2 жыл бұрын

讲的是真的细

@renesmt6423 3 жыл бұрын

感谢分享!

@yuanyao1774 4 жыл бұрын

老师，我是看完RNN的视频后看的LSTM，然后我想咨询一下LSTM中的Ct-1是什么信息呢？为什么RNN中没有用到Ct-1，LSTM中却多了个Ct-1呢？

@DED_Search 4 жыл бұрын

还有一个naive问题，视频最后说到在lstm层用到dropout 并没有提升performance，解决overfitting。 • Training Accuracy: 91.8% • Validation Accuracy: 88.7% • Test Accuracy: 88.6% 请问根据这组数据，如何判断overfitting?谢谢

@ShusenWang 4 жыл бұрын

从这看不出overfitting。要把模型参数变大和变小，看validiation变好还是变坏。如果模型变小，validation 变好，就知道之前发生了overfitting。

@DED_Search 4 жыл бұрын

@@ShusenWang 老师你是指比如 x 和 h 的dimension么？我记得你讲过几次他们的dimension是需要 cross validation 来确定的。他们的大小决定模型参数的数量。参数越多模型越复杂越容易over fit. 不知道我理解的对不对谢谢

@ShusenWang 4 жыл бұрын

@@DED_Search 对的

@liangxu208 4 жыл бұрын

谢谢王老师

@DED_Search 4 жыл бұрын

王老师你好，我有个关于output dimension的问题，在视频9:55分。embedding层的输出是(none, 500, 32).也就是说每个电影评论 (我们只保留最后500个单词，当然如果不够就用zero padding) 的每一个单词都用一个32 dimension的vector来表示。我记得training数据是20000个，那也就是说我们有20000个电影评论。那实际上embedding的输出是20000个50by32的矩阵么？不好意识，问题可能比较naive。谢谢

@ShusenWang 4 жыл бұрын

实现的时候不用管 20000。训练和测试的时候都是用mini-batch。如果batch size = 8，那么每次输出的就是 8x500x32 的tensor. 由于batch size到了训练和测试时候才知道，所以用 none 。

@DED_Search 4 жыл бұрын

@@ShusenWang 明白了非常感谢！