KZ
bin
Негізгі бет
Қазірдің өзінде танымал
Тікелей эфир
Ұнаған бейнелер
Қайтадан қараңыз
Жазылымдар
Кіру
Тіркелу
Ең жақсы KZbin
Фильм және анимация
Автокөліктер мен көлік құралдары
Музыка
Үй жануарлары мен аңдар
Спорт
Ойындар
Комедия
Ойын-сауық
Тәжірибелік нұсқаулар және стиль
Ғылым және технология
RNN模型与NLP应用(9/9):Self-Attention (自注意力机制)
7:17
Transformer模型(1/2): 剥离RNN,保留Attention
24:07
А что бы ты сделал? @LimbLossBoss
00:17
ЭКСКЛЮЗИВ: «Папа мені көп ұратын!» Біреудің семьясын бұздым деп айта алмаймын! Алғашқы сұхбат
2:20:23
😜 #aminkavitaminka #aminokka #аминкавитаминка
00:14
Flipping Robot vs Heavier And Heavier Objects
00:34
RNN模型与NLP应用(8/9):Attention (注意力机制)
Рет қаралды 30,932
Facebook
Twitter
Жүктеу
1
Жазылу 29 М.
Shusen Wang
Күн бұрын
Пікірлер: 98
@小马-s9p
4 жыл бұрын
连续看了两天老师的视频,真的是一句废话都没有,深入浅出便于理解,希望以后能坚持分享更多优质的内容
@wispershadow3131
Жыл бұрын
王老师太强了,ATTENTION很复杂了,网上看了很多文章直接懵逼,有前面的课打基础一步一步由浅入深,这样才能理解这个模型,更重要的是王老师讲了每个模型用在什么场景下,这是最重要的!
@toget977
4 жыл бұрын
翻了論文和tensorflow官方教程的pseudo code看得我是一臉懵逼 反覆看了老師講的課,再對照pseudo code終於豁然開朗了
@joshyu6600
2 жыл бұрын
老师讲得太棒了!干货满满,而且语言精炼,通俗易懂!
@谢安-h3f
Жыл бұрын
我敢说全网rnn中文教程您讲的最好
@tairanxu6787
3 жыл бұрын
几个月前开始断断续续看完了几个系列。非常清晰。
@jiazhenhu5959
3 жыл бұрын
一看老师的视频就根本停不下来
@zhili7566
3 жыл бұрын
讲得特别好!全是干货!反复听讲中。
@keyangzhang7577
2 жыл бұрын
谢谢王老师,讲的太好!期待您更多视频!
@walesmith1672
2 жыл бұрын
讲得太好了,最近一直在看,真的收获很大
@lu9524
3 жыл бұрын
看了几个attention讲解视频,这个讲的最清楚,没有之一。
@jasoncheng4555
3 жыл бұрын
内容非常好,必须火
@tonyc5580
3 жыл бұрын
王老师讲课太认真了,全篇每一句废话,这让容易跑神的人听课很紧张😀已经订阅,恨不能打赏😂
@jumpingeagle568
Жыл бұрын
老师,感谢您的讲解,我有一个小问题,权重总数不应该是 m*(t+1)个吗, 不过 complexity确实还是o(mt)
@tomorrowdata6498
2 жыл бұрын
太棒了 真的是一句话一句话暂停的看 才能跟上
@AY-fb1dr
4 жыл бұрын
看过的讲attention和transformer思路最清晰的视频,感谢王老师!请问王老师有录image caption的视频吗?在github上看到了那节课的课件但没找到视频 github.com/wangshusen/DeepLearning/blob/master/Slides/9_RNN_7.pdf
@ShusenWang
4 жыл бұрын
多谢!我没录那节课。image caption这几年有很多进展,我没有follow,不清楚现在最好的方法是哪些。
@閔123
5 ай бұрын
請問老師在第二種align()的計算,使用dot product想計算q與k的相似度,但是為何可以用內積計算相似度呢? 內積計算兩向量相似度不是要對各個向量約束一下嗎,例如q k都先轉成單位矩陣。
@王尼玛-e7d
3 жыл бұрын
五分钟直接弄明白,老师厉害
@tianle465
7 ай бұрын
讲的挺清楚,但还是停留在重述步骤,缺少对原理和本质的思考
@TV-vu9fg
2 жыл бұрын
老师,我有个问题,decoder的第一个输入x'1,是从哪里得来的呢?
@ShusenWang
2 жыл бұрын
对 [start] 符号的 Embedding
@williamzhou4353
2 жыл бұрын
请问 attention:weight visualization 的图是怎么画出来的啊??
@RlvfWfg
2 жыл бұрын
transformer模型用的不是self-attention吗?我看别的地方的BLOG和这儿的好像有点出入,好像多了个value矩阵
@zijian-lq3yy
11 ай бұрын
我读了三篇medium,感觉也没有老师讲的清晰,讲的太好了
@henern-wayn
Жыл бұрын
why option2 is more popular than option1, what's the reason inside?
@xiangruiliu2438
3 жыл бұрын
请问我的理解是否正确: 图中解释的是attention在训练时的运作方式。 x1' ,x2',x3' 即为德语单词,对应的就是x1, x2,x3的英语单词么?这是在做训练对吧?
@txxie
3 жыл бұрын
十分感谢!讲得很好,要是能再把训练流程(例如loss是啥,怎么更新权重)细讲一下就好了。
@macknightxu2199
Жыл бұрын
请问为何LSTM会遗忘?即如果计算当前状态,只使用前一个状态,为何这样就会遗忘呢?按理说,后一个状态会包括前面所有状态的信息。
@ethanchen3888
2 жыл бұрын
讲的太好了吧!全程一句废话都没有!
@yuwei2107
4 жыл бұрын
老师您好,我想问一下在训练时每次迭代更新后,根据option2去计算c的时候,之前的c都会发生变化,这里应该怎么处理?
@mangatalk9263
3 жыл бұрын
真的讲的好清晰明白!!! 感谢!!
@zhihaoxu756
2 жыл бұрын
唯有感谢!!!
@summerhu1274
3 жыл бұрын
讲的真好,谢谢
@wangrichard7367
2 жыл бұрын
13:30的例子中状态为什么能对应每一个单词,单词只是输入吧?
@athorm120
4 жыл бұрын
老师讲的真的太好了
@jiangwuheng
Жыл бұрын
c1已经包含了s1的所有信息了,为什么还需要s1呢?
@ximingdong503
3 жыл бұрын
老师 你好 有个问题 当 它更新时候,权重在变 (a1...am) , h1....hm训练的矩阵(Wk Wq)是不是也跟着 更新(因为反向传播)呀 ? 谢谢!
@jasoncheng4555
3 жыл бұрын
不是变,是每次的权重都不一样,每个词都有单独的m个权重,一共m*t个权重。个人理解
@chaojiezhang265
3 жыл бұрын
帮助很大!非常感谢!
@howisgood5328
4 жыл бұрын
非常精简易懂
@JeremyZ1036
3 жыл бұрын
看到第五分钟,果断订阅了!太厉害了
@jianwang8020
3 жыл бұрын
感谢老师分享,很有质量
@yudianouyang1262
3 жыл бұрын
老师,第一种方法求attention的时候把h和s串联在一起是为了求h和s的相关程度吗?还是说只是想同时包含两部分信息?如果是求相关性,对于第一次decoder,hm=s0,那么它们不应该是非常相关的吗?
@ShusenWang
3 жыл бұрын
用这种方法求相似度,不意味着和向量 x 最相似的是 x 本身呀!
@howisgood5328
4 жыл бұрын
老师讲的太好了
@yongkailin5039
4 жыл бұрын
讲解非常棒谢谢
@jinan9836
4 жыл бұрын
x2 撇是什么
@hiuwang1565
3 жыл бұрын
老师你说C0就是S0,可是一开始你没用自注意力机制 时候,S0不是Hm吗?是两种注意力计算方式所以有两种S0吗?
@ShusenWang
3 жыл бұрын
这里C0不是S0呀。C0是h向量的加权平均。自注意力跟这里的seq2seq不是一回事。
@fangxingzhou3854
4 жыл бұрын
老师你好 请问是否需要对每个context vector训练不同的权重矩阵W_K 和W_Q?一共是2m个矩阵?另外我发现α_i=h_i^T*W_K^T*W_Q*s_0,不知道这两个矩阵能否合并成一个矩阵来训练?
@ShusenWang
4 жыл бұрын
1. 只有 W_K 和W_Q 两个参数矩阵,不论输入序列长度 m 是多少。所有context vector都要共享参数。 2. 你说的没错,可以用一个矩阵 表示 W_K^T * W_Q ,这样就只有一个参数矩阵。虽然数学上是等价的,但是用的时候效果会不一样。
@OosnakekilleroO
3 жыл бұрын
解釋得很清楚
@charissayu8025
4 жыл бұрын
講解非常棒谢谢 :) 如果能有 code 的 notebook ,可以一邊看視頻一邊看code就更好。希望老師可以上載code. 謝謝!
@ShusenWang
4 жыл бұрын
attention的代碼有點複雜,不容易用ppt講清楚。而且有個麻煩,不管是用TF還是Torch,都會讓另一半的人看著不舒服~
@cocohand781
2 жыл бұрын
7:00 c0为什么是向量呢?
@tonyng8075
4 жыл бұрын
感覺像是把所有可乘可加都東西都做一片
@showera1
4 жыл бұрын
老师你好,请问s2和c2的区别是什么? c2 = a1 * h1 + a2 * h2 + ... + am*hm。 其中的参数a1, a2,a3, ..., am为h1, h2,...,hm跟s2的相关性。 那么c2和s2应该很接近吧。
@ShusenWang
4 жыл бұрын
c2 和 s2 差得会很远。 h1 到 hm与 s2完全不同。把 h1 到 hm 取加权平均,,与 s2 也完全不同。
@PGClassroom
3 жыл бұрын
very good! 非常好理解!
@tonyng8075
4 жыл бұрын
請問算c1 的trainable parameter 和 算c0 的trainable parameter 是否分別兩組的parameter?
@ShusenWang
4 жыл бұрын
只有一组parameters。所有context vector都是拿这一组parameters算的。
@bnglr
3 жыл бұрын
讲的很清晰
@leecharlie2513
4 жыл бұрын
decoder 的 状态s2 要靠s1, c1 输入, 岂不是这个sequential, 会很慢?
@ShusenWang
4 жыл бұрын
是的,attention就是慢。后来的Transformer的一个motivation就是解决Sequential问题,让训练并行化,可以用多个TPU一起做训练。
@xinzhao8880
2 жыл бұрын
希望老师讲讲 swin transformer
@yehchihyu9970
4 жыл бұрын
您好,您在影片提及Seq2Seq模型加上attention之後可以增加模型輸入的seqence length也不會明顯降低BLEU分數。我比較好奇的是為何sequence length越長,BLEU分數不會愈高?
@ShusenWang
4 жыл бұрын
更长的输入Sequence不会让问题变得更容易。BLEU最高也只能到1。 en.wikipedia.org/wiki/BLEU
@zhengyangzhao1308
3 жыл бұрын
@@ShusenWang 那么为什么 Sequence 长度较短时, BLEU score 会随长度上升呢?谢谢老师!
@ShusenWang
3 жыл бұрын
@@zhengyangzhao1308 好问题呀。我也不知道怎么会出现这种现象,但是attention的论文里就是这样。
@lni600ni4
3 жыл бұрын
会不会是那个数据集都是长句?
@yusun5722
2 жыл бұрын
BLUEU用n-gram来计算。当句子较短时,n-gram被匹配的可能性也在降低。
@姚友智
4 жыл бұрын
这里的c0计算讲错了吧,不是使用s0和enconder的h做,而是使用deconder的第一个节点输出的隐藏状态(用到了s0和target句子的第一个单词)与enconder的h做得到c0
@ShusenWang
4 жыл бұрын
你的意思应该是丢掉 c0,直接从 c1 开始。这样的问题在于生成 decoder 状态 s1 的时候看不到 encoder 的输入,导致 s1 记不住输入序列。
@yusun5722
2 жыл бұрын
Great video.
@meowcode8721
4 жыл бұрын
老师,您好,我不太明白依靠s0和c0是怎么生成预测第一个字符的呢
@meowcode8721
4 жыл бұрын
比如 x2’可以预测出来是因为有x1‘的输入,但是x1‘是怎么仅靠s0 和c0预测出来的呢
@ShusenWang
4 жыл бұрын
第一个字符不是预测出来的。第一个字符叫做起始符,是给定的,比如用 做起始符。我在前两节课有讲,这个地方就没细说。
@meowcode8721
4 жыл бұрын
@@ShusenWang 谢谢老师!
@bibiworm
3 жыл бұрын
3:37秒 这里的S0是encoder最后一层的hidden state and cell state。那我们为什么只关注S0跟h0...hm的相关性,不考虑S0跟C0..Cm的相关性么?谢谢
@ShusenWang
3 жыл бұрын
你觉得该怎么计算呢?在 s0的时刻,还不知道c呀。
@bibiworm
3 жыл бұрын
@@ShusenWang s0里包括encoder final state (h_m, c_m), 所以c是知道的呀。不好意思,我是初学者,我也不知道怎么计算,我就是根据我的intuition来提问。我会多去看看各种资料的。谢谢老师
@ShusenWang
3 жыл бұрын
@@bibiworm 哦,你说的是conveyor belt的c。那是LSTM。这节课我只用SimpleRNN,为了简单。SimpleRNN没有conveyor belt。
@bibiworm
3 жыл бұрын
@@ShusenWang 原来是这样 明白了 谢谢老师
@xiangwang4462
3 жыл бұрын
谢谢老师!老师,法语zone是分两个音节读的,zo-ne
@ShusenWang
3 жыл бұрын
哈哈,你真厉害,会法语~~
@peiwang3289
3 жыл бұрын
短小精悍!
@jinpengtian2072
4 жыл бұрын
太棒了,要是有代码案例就更好了
@tonyzhao5624
3 жыл бұрын
真是厉害啊!浙大学长!
@markpeng8409
4 жыл бұрын
没废话 👍
@bibiworm
3 жыл бұрын
这节课的slides 我换了两台电脑都打不开 好奇怪 嗯
@winshen4476
4 жыл бұрын
老师讲得真好,可惜国内看不太方便,老师要不要考虑去B站开个账号哈哈哈
@ShusenWang
4 жыл бұрын
多谢~但是我怕我KZbin膜蛤和乳包的被翻出来拉清单
@ruotianzhang3139
4 жыл бұрын
@@ShusenWang 啊这
@dayday3923
3 жыл бұрын
@@ShusenWang 任何一个聪明人都不会喜欢这两位杂子的
@dayday3923
3 жыл бұрын
不知道怎么回事, 周围人好像被心灵控制塔了一样, 难道都在演戏? 不知道为什么一个个都崇拜得五体投地,都有眼睛和耳朵,但是怎么就, 哎。
@geoffreyz5466
5 ай бұрын
3:00
7:17
RNN模型与NLP应用(9/9):Self-Attention (自注意力机制)
Shusen Wang
Рет қаралды 18 М.
24:07
Transformer模型(1/2): 剥离RNN,保留Attention
Shusen Wang
Рет қаралды 54 М.
00:17
А что бы ты сделал? @LimbLossBoss
История одного вокалиста
Рет қаралды 10 МЛН
2:20:23
ЭКСКЛЮЗИВ: «Папа мені көп ұратын!» Біреудің семьясын бұздым деп айта алмаймын! Алғашқы сұхбат
НТК Show
Рет қаралды 845 М.
00:14
😜 #aminkavitaminka #aminokka #аминкавитаминка
Аминка Витаминка
Рет қаралды 1,7 МЛН
00:34
Flipping Robot vs Heavier And Heavier Objects
Mark Rober
Рет қаралды 59 МЛН
13:02
RNN模型与NLP应用(4/9):LSTM模型
Shusen Wang
Рет қаралды 26 М.
20:50
RNN模型与NLP应用(3/9):Simple RNN模型
Shusen Wang
Рет қаралды 20 М.
1:45:12
从编解码和词嵌入开始,一步一步理解Transformer,注意力机制(Attention)的本质是卷积神经网络(CNN)
王木头学科学
Рет қаралды 90 М.
11:35
【人工智能】Transformer论文《Attention Is All You Need》发表六周年回顾 | 八名作者如今都在干什么 | 多人创立独角兽公司
最佳拍档
Рет қаралды 2 М.
1:11:31
ViT论文逐段精读【论文精读】
跟李沐学AI
Рет қаралды 51 М.
23:34
減肥的最大騙局就是戒糖!科學證明吃糖並不會讓人變老變醜?長期戒糖會讓你的身體出現異變?#talkshow #圆桌派 #窦文涛 #脱口秀 #真人秀 #圆桌派第七季 #马未都
影娱纪实社
Рет қаралды 7 М.
16:12
RNN模型与NLP应用(2/9):文本处理与词嵌入
Shusen Wang
Рет қаралды 20 М.
30:17
神经网络(四) 注意力机制
技术喵
Рет қаралды 6 М.
1:27:05
Transformer论文逐段精读
跟李沐学AI
Рет қаралды 411 М.
00:17
А что бы ты сделал? @LimbLossBoss
История одного вокалиста
Рет қаралды 10 МЛН