RNN模型与NLP应用(8/9)：Attention (注意力机制)

Рет қаралды 30,932

Shusen Wang

Күн бұрын

Пікірлер: 98

@小马-s9p 4 жыл бұрын

连续看了两天老师的视频，真的是一句废话都没有，深入浅出便于理解，希望以后能坚持分享更多优质的内容

@wispershadow3131 Жыл бұрын

王老师太强了，ATTENTION很复杂了，网上看了很多文章直接懵逼，有前面的课打基础一步一步由浅入深，这样才能理解这个模型，更重要的是王老师讲了每个模型用在什么场景下，这是最重要的！

@toget977 4 жыл бұрын

翻了論文和tensorflow官方教程的pseudo code看得我是一臉懵逼反覆看了老師講的課，再對照pseudo code終於豁然開朗了

@joshyu6600 2 жыл бұрын

老师讲得太棒了！干货满满，而且语言精炼，通俗易懂！

@谢安-h3f Жыл бұрын

我敢说全网rnn中文教程您讲的最好

@tairanxu6787 3 жыл бұрын

几个月前开始断断续续看完了几个系列。非常清晰。

@jiazhenhu5959 3 жыл бұрын

一看老师的视频就根本停不下来

@zhili7566 3 жыл бұрын

讲得特别好！全是干货！反复听讲中。

@keyangzhang7577 2 жыл бұрын

谢谢王老师，讲的太好！期待您更多视频！

@walesmith1672 2 жыл бұрын

讲得太好了，最近一直在看，真的收获很大

@lu9524 3 жыл бұрын

看了几个attention讲解视频，这个讲的最清楚，没有之一。

@jasoncheng4555 3 жыл бұрын

内容非常好，必须火

@tonyc5580 3 жыл бұрын

王老师讲课太认真了，全篇每一句废话，这让容易跑神的人听课很紧张😀已经订阅，恨不能打赏😂

@jumpingeagle568 Жыл бұрын

老师，感谢您的讲解，我有一个小问题，权重总数不应该是 m*（t+1)个吗，不过 complexity确实还是o(mt)

@tomorrowdata6498 2 жыл бұрын

太棒了真的是一句话一句话暂停的看才能跟上

@AY-fb1dr 4 жыл бұрын

看过的讲attention和transformer思路最清晰的视频，感谢王老师！请问王老师有录image caption的视频吗？在github上看到了那节课的课件但没找到视频 github.com/wangshusen/DeepLearning/blob/master/Slides/9_RNN_7.pdf

@ShusenWang 4 жыл бұрын

多谢！我没录那节课。image caption这几年有很多进展，我没有follow，不清楚现在最好的方法是哪些。

@閔123 5 ай бұрын

請問老師在第二種align()的計算，使用dot product想計算q與k的相似度，但是為何可以用內積計算相似度呢? 內積計算兩向量相似度不是要對各個向量約束一下嗎，例如q k都先轉成單位矩陣。

@王尼玛-e7d 3 жыл бұрын

五分钟直接弄明白，老师厉害

@tianle465 7 ай бұрын

讲的挺清楚，但还是停留在重述步骤，缺少对原理和本质的思考

@TV-vu9fg 2 жыл бұрын

老师，我有个问题，decoder的第一个输入x'1,是从哪里得来的呢？

@ShusenWang 2 жыл бұрын

对 [start] 符号的 Embedding

@williamzhou4353 2 жыл бұрын

请问 attention：weight visualization 的图是怎么画出来的啊？？

@RlvfWfg 2 жыл бұрын

transformer模型用的不是self-attention吗？我看别的地方的BLOG和这儿的好像有点出入，好像多了个value矩阵

@zijian-lq3yy 11 ай бұрын

我读了三篇medium，感觉也没有老师讲的清晰，讲的太好了

@henern-wayn Жыл бұрын

why option2 is more popular than option1, what's the reason inside?

@xiangruiliu2438 3 жыл бұрын

请问我的理解是否正确：图中解释的是attention在训练时的运作方式。 x1' ，x2',x3' 即为德语单词，对应的就是x1, x2,x3的英语单词么？这是在做训练对吧？

@txxie 3 жыл бұрын

十分感谢！讲得很好，要是能再把训练流程(例如loss是啥，怎么更新权重)细讲一下就好了。

@macknightxu2199 Жыл бұрын

请问为何LSTM会遗忘？即如果计算当前状态，只使用前一个状态，为何这样就会遗忘呢？按理说，后一个状态会包括前面所有状态的信息。

@ethanchen3888 2 жыл бұрын

讲的太好了吧！全程一句废话都没有！

@yuwei2107 4 жыл бұрын

老师您好，我想问一下在训练时每次迭代更新后，根据option2去计算c的时候，之前的c都会发生变化，这里应该怎么处理？

@mangatalk9263 3 жыл бұрын

真的讲的好清晰明白！！！感谢！！

@zhihaoxu756 2 жыл бұрын

唯有感谢！！！

@summerhu1274 3 жыл бұрын

讲的真好，谢谢

@wangrichard7367 2 жыл бұрын

13:30的例子中状态为什么能对应每一个单词，单词只是输入吧？

@athorm120 4 жыл бұрын

老师讲的真的太好了

@jiangwuheng Жыл бұрын

c1已经包含了s1的所有信息了，为什么还需要s1呢？

@ximingdong503 3 жыл бұрын

老师你好有个问题当它更新时候，权重在变（a1...am）， h1....hm训练的矩阵（Wk Wq）是不是也跟着更新（因为反向传播）呀？谢谢！

@jasoncheng4555 3 жыл бұрын

不是变，是每次的权重都不一样，每个词都有单独的m个权重，一共m*t个权重。个人理解

@chaojiezhang265 3 жыл бұрын

帮助很大！非常感谢！

@howisgood5328 4 жыл бұрын

非常精简易懂

@JeremyZ1036 3 жыл бұрын

看到第五分钟，果断订阅了！太厉害了

@jianwang8020 3 жыл бұрын

感谢老师分享，很有质量

@yudianouyang1262 3 жыл бұрын

老师，第一种方法求attention的时候把h和s串联在一起是为了求h和s的相关程度吗？还是说只是想同时包含两部分信息？如果是求相关性，对于第一次decoder，hm=s0，那么它们不应该是非常相关的吗？

@ShusenWang 3 жыл бұрын

用这种方法求相似度，不意味着和向量 x 最相似的是 x 本身呀！

@howisgood5328 4 жыл бұрын

老师讲的太好了

@yongkailin5039 4 жыл бұрын

讲解非常棒谢谢

@jinan9836 4 жыл бұрын

x2 撇是什么

@hiuwang1565 3 жыл бұрын

老师你说C0就是S0，可是一开始你没用自注意力机制时候，S0不是Hm吗？是两种注意力计算方式所以有两种S0吗？

@ShusenWang 3 жыл бұрын

这里C0不是S0呀。C0是h向量的加权平均。自注意力跟这里的seq2seq不是一回事。

@fangxingzhou3854 4 жыл бұрын

老师你好请问是否需要对每个context vector训练不同的权重矩阵W_K 和W_Q?一共是2m个矩阵？另外我发现α_i=h_i^T*W_K^T*W_Q*s_0,不知道这两个矩阵能否合并成一个矩阵来训练？

@ShusenWang 4 жыл бұрын

1. 只有 W_K 和W_Q 两个参数矩阵，不论输入序列长度 m 是多少。所有context vector都要共享参数。 2. 你说的没错，可以用一个矩阵表示 W_K^T * W_Q ，这样就只有一个参数矩阵。虽然数学上是等价的，但是用的时候效果会不一样。

@OosnakekilleroO 3 жыл бұрын

解釋得很清楚

@charissayu8025 4 жыл бұрын

講解非常棒谢谢：）如果能有 code 的 notebook ，可以一邊看視頻一邊看code就更好。希望老師可以上載code. 謝謝！

@ShusenWang 4 жыл бұрын

attention的代碼有點複雜，不容易用ppt講清楚。而且有個麻煩，不管是用TF還是Torch，都會讓另一半的人看著不舒服~

@cocohand781 2 жыл бұрын

7:00 c0为什么是向量呢？

@tonyng8075 4 жыл бұрын

感覺像是把所有可乘可加都東西都做一片

@showera1 4 жыл бұрын

老师你好，请问s2和c2的区别是什么？ c2 = a1 * h1 + a2 * h2 + ... + am*hm。其中的参数a1, a2,a3, ..., am为h1, h2,...,hm跟s2的相关性。那么c2和s2应该很接近吧。

@ShusenWang 4 жыл бұрын

c2 和 s2 差得会很远。 h1 到 hm与 s2完全不同。把 h1 到 hm 取加权平均，，与 s2 也完全不同。

@PGClassroom 3 жыл бұрын

very good! 非常好理解！

@tonyng8075 4 жыл бұрын

請問算c1 的trainable parameter 和算c0 的trainable parameter 是否分別兩組的parameter?

@ShusenWang 4 жыл бұрын

只有一组parameters。所有context vector都是拿这一组parameters算的。

@bnglr 3 жыл бұрын

讲的很清晰

@leecharlie2513 4 жыл бұрын

decoder 的状态s2 要靠s1, c1 输入，岂不是这个sequential, 会很慢？

@ShusenWang 4 жыл бұрын

是的，attention就是慢。后来的Transformer的一个motivation就是解决Sequential问题，让训练并行化，可以用多个TPU一起做训练。

@xinzhao8880 2 жыл бұрын

希望老师讲讲 swin transformer

@yehchihyu9970 4 жыл бұрын

您好，您在影片提及Seq2Seq模型加上attention之後可以增加模型輸入的seqence length也不會明顯降低BLEU分數。我比較好奇的是為何sequence length越長，BLEU分數不會愈高？

@ShusenWang 4 жыл бұрын

更长的输入Sequence不会让问题变得更容易。BLEU最高也只能到1。 en.wikipedia.org/wiki/BLEU

@zhengyangzhao1308 3 жыл бұрын

@@ShusenWang 那么为什么 Sequence 长度较短时， BLEU score 会随长度上升呢？谢谢老师！

@ShusenWang 3 жыл бұрын

@@zhengyangzhao1308 好问题呀。我也不知道怎么会出现这种现象，但是attention的论文里就是这样。

@lni600ni4 3 жыл бұрын

会不会是那个数据集都是长句？

@yusun5722 2 жыл бұрын

BLUEU用n-gram来计算。当句子较短时，n-gram被匹配的可能性也在降低。

@姚友智 4 жыл бұрын

这里的c0计算讲错了吧，不是使用s0和enconder的h做，而是使用deconder的第一个节点输出的隐藏状态（用到了s0和target句子的第一个单词）与enconder的h做得到c0

@ShusenWang 4 жыл бұрын

你的意思应该是丢掉 c0，直接从 c1 开始。这样的问题在于生成 decoder 状态 s1 的时候看不到 encoder 的输入，导致 s1 记不住输入序列。

@yusun5722 2 жыл бұрын

Great video.

@meowcode8721 4 жыл бұрын

老师，您好，我不太明白依靠s0和c0是怎么生成预测第一个字符的呢

@meowcode8721 4 жыл бұрын

比如 x2’可以预测出来是因为有x1‘的输入，但是x1‘是怎么仅靠s0 和c0预测出来的呢

@ShusenWang 4 жыл бұрын

第一个字符不是预测出来的。第一个字符叫做起始符，是给定的，比如用做起始符。我在前两节课有讲，这个地方就没细说。

@meowcode8721 4 жыл бұрын

@@ShusenWang 谢谢老师！

@bibiworm 3 жыл бұрын

3:37秒这里的S0是encoder最后一层的hidden state and cell state。那我们为什么只关注S0跟h0...hm的相关性，不考虑S0跟C0..Cm的相关性么？谢谢

@ShusenWang 3 жыл бұрын

你觉得该怎么计算呢？在 s0的时刻，还不知道c呀。

@bibiworm 3 жыл бұрын

@@ShusenWang s0里包括encoder final state (h_m, c_m), 所以c是知道的呀。不好意思，我是初学者，我也不知道怎么计算，我就是根据我的intuition来提问。我会多去看看各种资料的。谢谢老师

@ShusenWang 3 жыл бұрын

@@bibiworm 哦，你说的是conveyor belt的c。那是LSTM。这节课我只用SimpleRNN，为了简单。SimpleRNN没有conveyor belt。

@bibiworm 3 жыл бұрын

@@ShusenWang 原来是这样明白了谢谢老师

@xiangwang4462 3 жыл бұрын

谢谢老师！老师，法语zone是分两个音节读的，zo-ne

@ShusenWang 3 жыл бұрын

哈哈，你真厉害，会法语~~

@peiwang3289 3 жыл бұрын

短小精悍！

@jinpengtian2072 4 жыл бұрын

太棒了，要是有代码案例就更好了

@tonyzhao5624 3 жыл бұрын

真是厉害啊！浙大学长！

@markpeng8409 4 жыл бұрын

没废话 👍

@bibiworm 3 жыл бұрын

这节课的slides 我换了两台电脑都打不开好奇怪嗯

@winshen4476 4 жыл бұрын

老师讲得真好，可惜国内看不太方便，老师要不要考虑去B站开个账号哈哈哈

@ShusenWang 4 жыл бұрын

多谢~但是我怕我KZbin膜蛤和乳包的被翻出来拉清单

@ruotianzhang3139 4 жыл бұрын

@@ShusenWang 啊这

@dayday3923 3 жыл бұрын

@@ShusenWang 任何一个聪明人都不会喜欢这两位杂子的

@dayday3923 3 жыл бұрын

不知道怎么回事, 周围人好像被心灵控制塔了一样, 难道都在演戏？不知道为什么一个个都崇拜得五体投地，都有眼睛和耳朵，但是怎么就，哎。

@geoffreyz5466 5 ай бұрын

3:00