RNN模型与NLP应用(3/9)：Simple RNN模型

Рет қаралды 21,016

Shusen Wang

Күн бұрын

Пікірлер: 52

@陈宇迪-i8z 3 жыл бұрын

过于优秀了！心安理得逃课看王老师的视频

@matthewlee2405 4 жыл бұрын

感谢Shusen讲解，豁然开朗

@hanwang2574 2 жыл бұрын

真的感叹，咋讲的这么清晰！

@封筱 3 жыл бұрын

王老师的视频对我这种小白来说真的讲的非常透彻，期待王老师更多的教程

@iyoungman3443 3 жыл бұрын

感谢王老师，课程清晰易懂！

@darrengreen2449 3 жыл бұрын

讲的太好了，太清楚了，妈妈再也不用担心我的学习成绩了

@zizhunguo586 Жыл бұрын

为什么通过Cross Validation可以筛选出最佳的隐向量维度呢？我理解CV是通过选用不同的样本作为训练集和测试集来评估模型性能和过拟合情况，所以为什么呢？

@anibue_mango 6 ай бұрын

讲的很好，给老师点赞

@skyfaded9807 Жыл бұрын

我认为使用激活函数的目的是，能让RNN学习到非线性的关系，没有激活函数的话，实际上只是矩阵乘法，也就是线性变换

@ximoyan 4 жыл бұрын

可以提供pytorch代碼嗎？

@matthewlee2405 4 жыл бұрын

讲的非常清晰！

@wangrichard2140 4 жыл бұрын

非常清晰！！

@thomaswoh01 4 жыл бұрын

您好老师，不知道您能够讲述关于特征值和奇异值吗？看了很多文章还是没有完全理解在机器学习里的用途。

@binwangcu Ай бұрын

诚心同问，大一上学期第一节课就是线性代数，至今还记得老师要算特征值和奇异值，非常狭义的认为就是为了解方程，现在才知道那些基础概念有这么多应用，PCA， LORA for LLM，感觉当时老师要是能把知识和现实应用衔接上，课程会更有趣。

@davidliu5075 3 жыл бұрын

讲的太好了！很清晰！感谢！

@Liaocyintl 3 жыл бұрын

讲的特别好！

@PatrickCat99 11 ай бұрын

老师讲的太好了

@leejack5209 2 жыл бұрын

讲的真好啊，谢谢老师。

@leenoddles3038 3 жыл бұрын

3分钟开始的rnn 结构展示，h0，h1,h2,...,ht 不需要用→连接嘛？A是rnn的参数，所有时科都不变，为什么用→连接呢？期待老师的回复

@zhiweisong4617 3 жыл бұрын

王老师您好，看完DRL，我又来看RNN啦。这里有几个问题。1. 激活函数为什么用tanh，而不用sigmoid，reLu。reLu不是不容易造成梯度消失嘛？ 2. word embedding中那320000个参数是在用RNN之前train好的还是和RNN中的A一起train。3. 为什么RNN中的梯度 \partial h_100 / \partial x = 0？再次感谢老师清楚易懂的视频。

@ShusenWang 3 жыл бұрын

1. relu会梯度爆炸，sigmoid跟tanh几乎一样。2. 都可以，取决于数据够不够多。3. 这个不太好解释

@維仁陳-c2k 3 жыл бұрын

3.這需要用back propagation through time解釋，裡面牽涉到符號定義，所以文字不太容易說明，底下附個連結給你參考: kzbin.info/www/bejne/i4XSm5R5r7KihdU 要注意的是，在這裡王老師用matrix A代表RNN的weight matrix，在我們學校老師的影片裡，矩陣A被拆解成U和W。這邊附上我們老師的講義和代碼供參考： nthu-datalab.github.io/ml/index.html

@AJ-cb2bz Жыл бұрын

准确率是和什么比较呢？是不是数据集外，还存在一个人工标签的好坏评价集？

@zhili7566 3 жыл бұрын

反复学习中！超赞！！！

@理塘第一突破手 9 ай бұрын

膜拜大神！！！

@forrestgan 4 жыл бұрын

感谢王老师！超级清楚！

@phillwang1573 3 жыл бұрын

这节课的word_num为什么是500啊，上节课的LR如果设置word_num=500，测试集准确率有89%，比这个还好

@zhiweisong4617 3 жыл бұрын

王老师您好。one - to - one model 是输入和输出长度都是固定的。RNN可以用来做many- to -one，但在这个视频中RNN的输入长度仍是固定的，所以我想问的是这里用的训练样本（movie review analysis）可不可以是没有经过align sequences的，即输入长度不固定(就有电影评论的本身长度)，输出固定为1（好评或者差评）。期待老师的回复，谢谢您。

@ShusenWang 3 жыл бұрын

训练的时候要align，长度一样。inference的时候长度可以任意。

@leejack5209 2 жыл бұрын

老师请问，y是0或者1吗还是，没有看到怎么标注y的。对应的pos和neg

@xinyuanwang3805 3 жыл бұрын

支持支持！！！！！！！！！

@xinliu4785 2 жыл бұрын

讲得太好了！

@yuefang1030 4 жыл бұрын

王老师，你说的根据cross validation找到合适的维度值如何理解，我没太搞明白，多谢

@ShusenWang 4 жыл бұрын

RNN做分类会错误率。选择超参数（包括x和h的维度），让错误率最低。

@gaokaizhang Жыл бұрын

讲的可太好了

@DED_Search 3 жыл бұрын

6:17 这里有些糊涂。我理解例子里当A的值大于1的时候 A100会非常大做 back propagation 的时候会梯度爆炸反之小于1的话会梯度消失所以要对 h 用一下激活函数tahn？但是我感觉这个只对梯度爆炸有作用，因为tanh也没办法对0附近的值起到什么作用。。。第二个问题我发现做rnn的时候 loss降低的过程会规律的产生cliff 跟这个例子相关么？

@yangkewen 2 жыл бұрын

这里王老师是说hidden state在很多time step之后的数值会爆炸或者接近0吧，而不是gradient，tanh函数应该还是有gradient vanishing问题的

@yuanyao1774 4 жыл бұрын

老师，在讲解为什么用tanh的时候，我理解的原因是tanh起到了normilization的作用，所以采用它，那么用sigmod也可以起到normlization的作用，为什么不用sigmod呢？

@yangkewen 2 жыл бұрын

这个其实也是可以，但是sigmoid(准确地说是logistic）的输出是range(0，1)，不是0-centered，这就有一个zigzag输出问题，你可以网上搜一下

@carpemer 2 жыл бұрын

是因为那个tan造成了梯度被逼近到0附近么？

@jacquepang Жыл бұрын

0:22 from nlp perspective, RNN is not comarapble to transformer model, should the training dataset is large enough, however RNN is useful for small dataset. 00:33 limitations : a. FC nets and conv nests are 1-to-1 model ( where you process a parapgra as a whole and output is one ) b. on contrarry to human behavior where accumulate the text but not aggregated paragraph as a whole c. fixed-size output 2:31 RNN introduction x_t word embedding A parameter of RNN (NOTE! shape of A = shape(h) * (shape(h)+shape(x)) + shape(bias) , there is ONLY ONE such parameter matrix A, NO MATTER HOW long the sequence is.) h_t state of all previous words 4:56 simple RNN tanh : used for normalization to enforce A elements in (0,1) 7:22 simple RNN parameter dimensions for h_t = tanh(A* (h_{t-1}+x_t)^T ) , rows of A = shape of h , cols of A = shapes of (h) + shapes of (x) 8:08 structure of RNN for case study word embedding : map a word to a embedding vector(x) A : input is the word embeeding, output is status h_i 10:00 explain RNN parameter(keras) embedding_dum=32 shape of word vector (x) = 32 word_num = 500 means we cut off at most 500 words in each movie review. state_dim =32 means the shape of status h = 32 return _sequenes=False means RNN only output the very last status h_t and disregard all previous status from h_0 to h_{t-1} 12:01 how to calculate rnn parameter 2080 = 32*(32+32) + 32 = shape(h) * (shape(h)+shape(x)) + shape(bias) 13:48 to return all previous status, the returned output is a vector h vec([h_1, ... h_t]) , then flattern to sigmoid with this vector h to get final output. 16:17 simple RNN disadvanatage : good at short-term dependence, BAD at long-term dependence: "h_100" is almost irrelevant to x1 \frac{\partial h_{100}}{\partial x_{1}} is near zero, this means change x1 almost will NOT change h_100. (LSTM is longer than simple RNN thought LSTM still has its own issue.)