RNN模型与NLP应用(8/9):Attention (注意力机制)

  Рет қаралды 30,932

Shusen Wang

Shusen Wang

Күн бұрын

Пікірлер: 98
@小马-s9p
@小马-s9p 4 жыл бұрын
连续看了两天老师的视频,真的是一句废话都没有,深入浅出便于理解,希望以后能坚持分享更多优质的内容
@wispershadow3131
@wispershadow3131 Жыл бұрын
王老师太强了,ATTENTION很复杂了,网上看了很多文章直接懵逼,有前面的课打基础一步一步由浅入深,这样才能理解这个模型,更重要的是王老师讲了每个模型用在什么场景下,这是最重要的!
@toget977
@toget977 4 жыл бұрын
翻了論文和tensorflow官方教程的pseudo code看得我是一臉懵逼 反覆看了老師講的課,再對照pseudo code終於豁然開朗了
@joshyu6600
@joshyu6600 2 жыл бұрын
老师讲得太棒了!干货满满,而且语言精炼,通俗易懂!
@谢安-h3f
@谢安-h3f Жыл бұрын
我敢说全网rnn中文教程您讲的最好
@tairanxu6787
@tairanxu6787 3 жыл бұрын
几个月前开始断断续续看完了几个系列。非常清晰。
@jiazhenhu5959
@jiazhenhu5959 3 жыл бұрын
一看老师的视频就根本停不下来
@zhili7566
@zhili7566 3 жыл бұрын
讲得特别好!全是干货!反复听讲中。
@keyangzhang7577
@keyangzhang7577 2 жыл бұрын
谢谢王老师,讲的太好!期待您更多视频!
@walesmith1672
@walesmith1672 2 жыл бұрын
讲得太好了,最近一直在看,真的收获很大
@lu9524
@lu9524 3 жыл бұрын
看了几个attention讲解视频,这个讲的最清楚,没有之一。
@jasoncheng4555
@jasoncheng4555 3 жыл бұрын
内容非常好,必须火
@tonyc5580
@tonyc5580 3 жыл бұрын
王老师讲课太认真了,全篇每一句废话,这让容易跑神的人听课很紧张😀已经订阅,恨不能打赏😂
@jumpingeagle568
@jumpingeagle568 Жыл бұрын
老师,感谢您的讲解,我有一个小问题,权重总数不应该是 m*(t+1)个吗, 不过 complexity确实还是o(mt)
@tomorrowdata6498
@tomorrowdata6498 2 жыл бұрын
太棒了 真的是一句话一句话暂停的看 才能跟上
@AY-fb1dr
@AY-fb1dr 4 жыл бұрын
看过的讲attention和transformer思路最清晰的视频,感谢王老师!请问王老师有录image caption的视频吗?在github上看到了那节课的课件但没找到视频 github.com/wangshusen/DeepLearning/blob/master/Slides/9_RNN_7.pdf
@ShusenWang
@ShusenWang 4 жыл бұрын
多谢!我没录那节课。image caption这几年有很多进展,我没有follow,不清楚现在最好的方法是哪些。
@閔123
@閔123 5 ай бұрын
請問老師在第二種align()的計算,使用dot product想計算q與k的相似度,但是為何可以用內積計算相似度呢? 內積計算兩向量相似度不是要對各個向量約束一下嗎,例如q k都先轉成單位矩陣。
@王尼玛-e7d
@王尼玛-e7d 3 жыл бұрын
五分钟直接弄明白,老师厉害
@tianle465
@tianle465 7 ай бұрын
讲的挺清楚,但还是停留在重述步骤,缺少对原理和本质的思考
@TV-vu9fg
@TV-vu9fg 2 жыл бұрын
老师,我有个问题,decoder的第一个输入x'1,是从哪里得来的呢?
@ShusenWang
@ShusenWang 2 жыл бұрын
对 [start] 符号的 Embedding
@williamzhou4353
@williamzhou4353 2 жыл бұрын
请问 attention:weight visualization 的图是怎么画出来的啊??
@RlvfWfg
@RlvfWfg 2 жыл бұрын
transformer模型用的不是self-attention吗?我看别的地方的BLOG和这儿的好像有点出入,好像多了个value矩阵
@zijian-lq3yy
@zijian-lq3yy 11 ай бұрын
我读了三篇medium,感觉也没有老师讲的清晰,讲的太好了
@henern-wayn
@henern-wayn Жыл бұрын
why option2 is more popular than option1, what's the reason inside?
@xiangruiliu2438
@xiangruiliu2438 3 жыл бұрын
请问我的理解是否正确: 图中解释的是attention在训练时的运作方式。 x1' ,x2',x3' 即为德语单词,对应的就是x1, x2,x3的英语单词么?这是在做训练对吧?
@txxie
@txxie 3 жыл бұрын
十分感谢!讲得很好,要是能再把训练流程(例如loss是啥,怎么更新权重)细讲一下就好了。
@macknightxu2199
@macknightxu2199 Жыл бұрын
请问为何LSTM会遗忘?即如果计算当前状态,只使用前一个状态,为何这样就会遗忘呢?按理说,后一个状态会包括前面所有状态的信息。
@ethanchen3888
@ethanchen3888 2 жыл бұрын
讲的太好了吧!全程一句废话都没有!
@yuwei2107
@yuwei2107 4 жыл бұрын
老师您好,我想问一下在训练时每次迭代更新后,根据option2去计算c的时候,之前的c都会发生变化,这里应该怎么处理?
@mangatalk9263
@mangatalk9263 3 жыл бұрын
真的讲的好清晰明白!!! 感谢!!
@zhihaoxu756
@zhihaoxu756 2 жыл бұрын
唯有感谢!!!
@summerhu1274
@summerhu1274 3 жыл бұрын
讲的真好,谢谢
@wangrichard7367
@wangrichard7367 2 жыл бұрын
13:30的例子中状态为什么能对应每一个单词,单词只是输入吧?
@athorm120
@athorm120 4 жыл бұрын
老师讲的真的太好了
@jiangwuheng
@jiangwuheng Жыл бұрын
c1已经包含了s1的所有信息了,为什么还需要s1呢?
@ximingdong503
@ximingdong503 3 жыл бұрын
老师 你好 有个问题 当 它更新时候,权重在变 (a1...am) , h1....hm训练的矩阵(Wk Wq)是不是也跟着 更新(因为反向传播)呀 ? 谢谢!
@jasoncheng4555
@jasoncheng4555 3 жыл бұрын
不是变,是每次的权重都不一样,每个词都有单独的m个权重,一共m*t个权重。个人理解
@chaojiezhang265
@chaojiezhang265 3 жыл бұрын
帮助很大!非常感谢!
@howisgood5328
@howisgood5328 4 жыл бұрын
非常精简易懂
@JeremyZ1036
@JeremyZ1036 3 жыл бұрын
看到第五分钟,果断订阅了!太厉害了
@jianwang8020
@jianwang8020 3 жыл бұрын
感谢老师分享,很有质量
@yudianouyang1262
@yudianouyang1262 3 жыл бұрын
老师,第一种方法求attention的时候把h和s串联在一起是为了求h和s的相关程度吗?还是说只是想同时包含两部分信息?如果是求相关性,对于第一次decoder,hm=s0,那么它们不应该是非常相关的吗?
@ShusenWang
@ShusenWang 3 жыл бұрын
用这种方法求相似度,不意味着和向量 x 最相似的是 x 本身呀!
@howisgood5328
@howisgood5328 4 жыл бұрын
老师讲的太好了
@yongkailin5039
@yongkailin5039 4 жыл бұрын
讲解非常棒谢谢
@jinan9836
@jinan9836 4 жыл бұрын
x2 撇是什么
@hiuwang1565
@hiuwang1565 3 жыл бұрын
老师你说C0就是S0,可是一开始你没用自注意力机制 时候,S0不是Hm吗?是两种注意力计算方式所以有两种S0吗?
@ShusenWang
@ShusenWang 3 жыл бұрын
这里C0不是S0呀。C0是h向量的加权平均。自注意力跟这里的seq2seq不是一回事。
@fangxingzhou3854
@fangxingzhou3854 4 жыл бұрын
老师你好 请问是否需要对每个context vector训练不同的权重矩阵W_K 和W_Q?一共是2m个矩阵?另外我发现α_i=h_i^T*W_K^T*W_Q*s_0,不知道这两个矩阵能否合并成一个矩阵来训练?
@ShusenWang
@ShusenWang 4 жыл бұрын
1. 只有 W_K 和W_Q 两个参数矩阵,不论输入序列长度 m 是多少。所有context vector都要共享参数。 2. 你说的没错,可以用一个矩阵 表示 W_K^T * W_Q ,这样就只有一个参数矩阵。虽然数学上是等价的,但是用的时候效果会不一样。
@OosnakekilleroO
@OosnakekilleroO 3 жыл бұрын
解釋得很清楚
@charissayu8025
@charissayu8025 4 жыл бұрын
講解非常棒谢谢 :) 如果能有 code 的 notebook ,可以一邊看視頻一邊看code就更好。希望老師可以上載code. 謝謝!
@ShusenWang
@ShusenWang 4 жыл бұрын
attention的代碼有點複雜,不容易用ppt講清楚。而且有個麻煩,不管是用TF還是Torch,都會讓另一半的人看著不舒服~
@cocohand781
@cocohand781 2 жыл бұрын
7:00 c0为什么是向量呢?
@tonyng8075
@tonyng8075 4 жыл бұрын
感覺像是把所有可乘可加都東西都做一片
@showera1
@showera1 4 жыл бұрын
老师你好,请问s2和c2的区别是什么? c2 = a1 * h1 + a2 * h2 + ... + am*hm。 其中的参数a1, a2,a3, ..., am为h1, h2,...,hm跟s2的相关性。 那么c2和s2应该很接近吧。
@ShusenWang
@ShusenWang 4 жыл бұрын
c2 和 s2 差得会很远。 h1 到 hm与 s2完全不同。把 h1 到 hm 取加权平均,,与 s2 也完全不同。
@PGClassroom
@PGClassroom 3 жыл бұрын
very good! 非常好理解!
@tonyng8075
@tonyng8075 4 жыл бұрын
請問算c1 的trainable parameter 和 算c0 的trainable parameter 是否分別兩組的parameter?
@ShusenWang
@ShusenWang 4 жыл бұрын
只有一组parameters。所有context vector都是拿这一组parameters算的。
@bnglr
@bnglr 3 жыл бұрын
讲的很清晰
@leecharlie2513
@leecharlie2513 4 жыл бұрын
decoder 的 状态s2 要靠s1, c1 输入, 岂不是这个sequential, 会很慢?
@ShusenWang
@ShusenWang 4 жыл бұрын
是的,attention就是慢。后来的Transformer的一个motivation就是解决Sequential问题,让训练并行化,可以用多个TPU一起做训练。
@xinzhao8880
@xinzhao8880 2 жыл бұрын
希望老师讲讲 swin transformer
@yehchihyu9970
@yehchihyu9970 4 жыл бұрын
您好,您在影片提及Seq2Seq模型加上attention之後可以增加模型輸入的seqence length也不會明顯降低BLEU分數。我比較好奇的是為何sequence length越長,BLEU分數不會愈高?
@ShusenWang
@ShusenWang 4 жыл бұрын
更长的输入Sequence不会让问题变得更容易。BLEU最高也只能到1。 en.wikipedia.org/wiki/BLEU
@zhengyangzhao1308
@zhengyangzhao1308 3 жыл бұрын
@@ShusenWang 那么为什么 Sequence 长度较短时, BLEU score 会随长度上升呢?谢谢老师!
@ShusenWang
@ShusenWang 3 жыл бұрын
@@zhengyangzhao1308 好问题呀。我也不知道怎么会出现这种现象,但是attention的论文里就是这样。
@lni600ni4
@lni600ni4 3 жыл бұрын
会不会是那个数据集都是长句?
@yusun5722
@yusun5722 2 жыл бұрын
BLUEU用n-gram来计算。当句子较短时,n-gram被匹配的可能性也在降低。
@姚友智
@姚友智 4 жыл бұрын
这里的c0计算讲错了吧,不是使用s0和enconder的h做,而是使用deconder的第一个节点输出的隐藏状态(用到了s0和target句子的第一个单词)与enconder的h做得到c0
@ShusenWang
@ShusenWang 4 жыл бұрын
你的意思应该是丢掉 c0,直接从 c1 开始。这样的问题在于生成 decoder 状态 s1 的时候看不到 encoder 的输入,导致 s1 记不住输入序列。
@yusun5722
@yusun5722 2 жыл бұрын
Great video.
@meowcode8721
@meowcode8721 4 жыл бұрын
老师,您好,我不太明白依靠s0和c0是怎么生成预测第一个字符的呢
@meowcode8721
@meowcode8721 4 жыл бұрын
比如 x2’可以预测出来是因为有x1‘的输入,但是x1‘是怎么仅靠s0 和c0预测出来的呢
@ShusenWang
@ShusenWang 4 жыл бұрын
第一个字符不是预测出来的。第一个字符叫做起始符,是给定的,比如用 做起始符。我在前两节课有讲,这个地方就没细说。
@meowcode8721
@meowcode8721 4 жыл бұрын
@@ShusenWang 谢谢老师!
@bibiworm
@bibiworm 3 жыл бұрын
3:37秒 这里的S0是encoder最后一层的hidden state and cell state。那我们为什么只关注S0跟h0...hm的相关性,不考虑S0跟C0..Cm的相关性么?谢谢
@ShusenWang
@ShusenWang 3 жыл бұрын
你觉得该怎么计算呢?在 s0的时刻,还不知道c呀。
@bibiworm
@bibiworm 3 жыл бұрын
@@ShusenWang s0里包括encoder final state (h_m, c_m), 所以c是知道的呀。不好意思,我是初学者,我也不知道怎么计算,我就是根据我的intuition来提问。我会多去看看各种资料的。谢谢老师
@ShusenWang
@ShusenWang 3 жыл бұрын
@@bibiworm 哦,你说的是conveyor belt的c。那是LSTM。这节课我只用SimpleRNN,为了简单。SimpleRNN没有conveyor belt。
@bibiworm
@bibiworm 3 жыл бұрын
@@ShusenWang 原来是这样 明白了 谢谢老师
@xiangwang4462
@xiangwang4462 3 жыл бұрын
谢谢老师!老师,法语zone是分两个音节读的,zo-ne
@ShusenWang
@ShusenWang 3 жыл бұрын
哈哈,你真厉害,会法语~~
@peiwang3289
@peiwang3289 3 жыл бұрын
短小精悍!
@jinpengtian2072
@jinpengtian2072 4 жыл бұрын
太棒了,要是有代码案例就更好了
@tonyzhao5624
@tonyzhao5624 3 жыл бұрын
真是厉害啊!浙大学长!
@markpeng8409
@markpeng8409 4 жыл бұрын
没废话 👍
@bibiworm
@bibiworm 3 жыл бұрын
这节课的slides 我换了两台电脑都打不开 好奇怪 嗯
@winshen4476
@winshen4476 4 жыл бұрын
老师讲得真好,可惜国内看不太方便,老师要不要考虑去B站开个账号哈哈哈
@ShusenWang
@ShusenWang 4 жыл бұрын
多谢~但是我怕我KZbin膜蛤和乳包的被翻出来拉清单
@ruotianzhang3139
@ruotianzhang3139 4 жыл бұрын
@@ShusenWang 啊这
@dayday3923
@dayday3923 3 жыл бұрын
@@ShusenWang 任何一个聪明人都不会喜欢这两位杂子的
@dayday3923
@dayday3923 3 жыл бұрын
不知道怎么回事, 周围人好像被心灵控制塔了一样, 难道都在演戏? 不知道为什么一个个都崇拜得五体投地,都有眼睛和耳朵,但是怎么就, 哎。
@geoffreyz5466
@geoffreyz5466 5 ай бұрын
3:00
RNN模型与NLP应用(9/9):Self-Attention (自注意力机制)
7:17
Transformer模型(1/2): 剥离RNN,保留Attention
24:07
Shusen Wang
Рет қаралды 54 М.
А что бы ты сделал? @LimbLossBoss
00:17
История одного вокалиста
Рет қаралды 10 МЛН
😜 #aminkavitaminka #aminokka #аминкавитаминка
00:14
Аминка Витаминка
Рет қаралды 1,7 МЛН
Flipping Robot vs Heavier And Heavier Objects
00:34
Mark Rober
Рет қаралды 59 МЛН
RNN模型与NLP应用(4/9):LSTM模型
13:02
Shusen Wang
Рет қаралды 26 М.
RNN模型与NLP应用(3/9):Simple RNN模型
20:50
Shusen Wang
Рет қаралды 20 М.
ViT论文逐段精读【论文精读】
1:11:31
跟李沐学AI
Рет қаралды 51 М.
RNN模型与NLP应用(2/9):文本处理与词嵌入
16:12
Shusen Wang
Рет қаралды 20 М.
神经网络(四) 注意力机制
30:17
技术喵
Рет қаралды 6 М.
Transformer论文逐段精读
1:27:05
跟李沐学AI
Рет қаралды 411 М.
А что бы ты сделал? @LimbLossBoss
00:17
История одного вокалиста
Рет қаралды 10 МЛН