Transformer

  Рет қаралды 196,542

Hung-yi Lee

Hung-yi Lee

5 жыл бұрын

Пікірлер: 134
@amoshuangyc
@amoshuangyc 5 жыл бұрын
講得太好了!網上的文章怎麼看都看不懂,現在終於讓我搞懂 self attention 在做什麼了
@fissyercJ
@fissyercJ 5 жыл бұрын
老師的課程很棒,很幽默也一直有在更新新的model,非常喜歡老師的課程。
@blchen1
@blchen1 Жыл бұрын
谢谢李老师的精彩讲解!提纲挈领、深入浅出,令人受益匪浅!
@alexanderyau6347
@alexanderyau6347 4 жыл бұрын
太棒了,讲的非常好!非常清晰透彻!感谢李教授!
@chanvincent9812
@chanvincent9812 4 жыл бұрын
前后看了好几遍,终于是看懂了,心情都舒畅了很多,感谢李老师
@jxm8944
@jxm8944 5 жыл бұрын
李先生好!Transformer 模型/原理的解析:用于机器翻译任务,表现极好且可并行化,大大减少训练时间。 点赞! 🌹
@yufan2148
@yufan2148 5 жыл бұрын
7:58 Self-attention 27:57 Positional Encoding 37:25 Transformer
@hudsonvan4322
@hudsonvan4322 3 жыл бұрын
5:32 這邊應該是指CNN 但口誤講成RNN
@ipodyy6744
@ipodyy6744 3 жыл бұрын
李老师讲的seq2seq model的链接能给一个吗?
@JoeL-fb2gw
@JoeL-fb2gw 4 жыл бұрын
专门注册一个账号来感谢老师 讲的很好,非常感谢!
@user-gf5yn5hm7n
@user-gf5yn5hm7n 5 жыл бұрын
感谢李老师的付出,可以看出做这些PPT需要许多的精力!这比看原论文舒服多了
@taiwanest
@taiwanest 5 жыл бұрын
如此清晰透側的教學,令人驚嘆!
@midijean2291
@midijean2291 4 жыл бұрын
老师讲的真是太好了!看完了再去看paper就好读太多了!
@guang-yanzhang6122
@guang-yanzhang6122 5 жыл бұрын
李老师的思维非常的清晰,富有条理性
@jason81112
@jason81112 5 жыл бұрын
感謝老師解答 不然原論文內h=8那邊我一直一頭霧水 我原本還在猜想是不是有維度考量拆成8份來降為之類的 畢竟O^2*d 的確挺大的 另外我覺得後面self attention gan那邊 其實non-local network那個例子比較好XD SAGAN相對non-local來說寫得比較隨意 non-local那邊有一些思想上的闡述~
@noahxu4647
@noahxu4647 4 жыл бұрын
谢谢李老师的分享,讲的非常的详细
@lixunxie6195
@lixunxie6195 4 жыл бұрын
讲的很好,谢谢李老师的讲解
@talkshuo7866
@talkshuo7866 4 жыл бұрын
泪目!感谢老师!!
@chengliu3033
@chengliu3033 Ай бұрын
老师讲的非常好,收获很大,感谢李教授
@abc123634
@abc123634 5 жыл бұрын
等老師介紹 Transformer 的影片等幾個月了,實在實在是太棒了🌟
@abc123634
@abc123634 5 жыл бұрын
如果你看完教授的影片覺得手癢想要動手實作,可以參考這篇文章:leemeng.tw/neural-machine-translation-with-transformer-and-tensorflow2.html
@JohnSun-rt6qb
@JohnSun-rt6qb 4 жыл бұрын
@@abc123634 感謝分享,也覺得您的文章非常精實,獲益良多~
@timehsw7277
@timehsw7277 4 жыл бұрын
@@abc123634 写得很棒,获益颇多,谢谢!
@allenlai9954
@allenlai9954 4 жыл бұрын
謝謝老師 講解的非常清楚
@shencunzailaozhang
@shencunzailaozhang 5 жыл бұрын
老师很准时,谢谢您辛苦的付出。
@peace3524
@peace3524 2 жыл бұрын
老師的課程真的是福音😆
@zmario8605
@zmario8605 4 жыл бұрын
I have never seen such a great course video! Thank you very much
@lucywang8643
@lucywang8643 3 жыл бұрын
did such a great job in explaining! Thank you!
@osmanjant
@osmanjant 4 жыл бұрын
You are aswesome teacher. Don't stop uploading new videos. Thanks.
@zdx4571
@zdx4571 5 ай бұрын
谢谢老师让我了解新知识~
@ritaxu7934
@ritaxu7934 24 күн бұрын
感谢老师!终于懂了为什么positional embedding可以直接加上来
@mengyuge3369
@mengyuge3369 3 жыл бұрын
Thank you very much. Great video
@sollunaliu7133
@sollunaliu7133 3 жыл бұрын
史上最强transfermer视频讲解,支持老师~
@StevenLiuX
@StevenLiuX 4 жыл бұрын
感谢老师! 终于看懂了 恨不能多点几个赞!
@wolfmib
@wolfmib 4 жыл бұрын
for 13:20: we could consider two Vector with D dimension : 1. When doing the inner product of the vector pairs , we can think : ___ the same vector with different dimension shall meet equal relationship as we expected:___ such as A(1,1,1), with B(1,1,1) D=3 a(1,1,1,1) with b (1,1,1,1) , D = 4 This two pair of vector (A,B ) , (a,b) shall has the same attention value: So take the inner product for both of two paris: A * B = 3 a * b = 4 and we found 3 != 4, so we divide by the square of the dimension: A*B / sqrt(3) = 3 / 1.7320 ~ 1.7320 a* b / sqrt(4) = 4 / 2 ~ 2 by this approximate : indeed, A*B is closer to a*b (even it's not exactly equal) , but it definitely is a better solution instead of taking the inner product without divide anything.
@zechenliu5760
@zechenliu5760 7 ай бұрын
按这种解释的话,直接除以D不就好了?为什么要除以根号D?
@gphonebeta
@gphonebeta 4 жыл бұрын
这个是全网讲transformer最好的视频,还是中文的,爱死李宏毅老师了。
@user-ug8dj5rd5u
@user-ug8dj5rd5u 4 жыл бұрын
非常好,感谢
@li-pingho1441
@li-pingho1441 Жыл бұрын
真的講超好......沒有李教授的線上課 一堆研究生真的完蛋
@jamgplus334
@jamgplus334 3 жыл бұрын
天涯若比邻,这句绝了
@stoneshou
@stoneshou 4 жыл бұрын
非常感谢! 有个小建议,右下角的水印有时会挡到内容,不知道有没有可能把水印或者挡住的部分分开
@htai7163
@htai7163 2 жыл бұрын
深入简出,讲的太好了。
@justinzhang1323
@justinzhang1323 3 жыл бұрын
老师讲得太好了!
@youzhongwang3647
@youzhongwang3647 3 жыл бұрын
谢谢李老师!请问一下在decoder的时候,因为只能用output左边的部分做attention,那么在train decoder的时候还是in parallel的吗?如果是,请问有没有详细一点的介绍是怎么实现的?谢谢!
@muhammadsaadmansoor7777
@muhammadsaadmansoor7777 3 жыл бұрын
I not only understood transformers but I also learned Chinese from this video
@haoyundeng1498
@haoyundeng1498 2 жыл бұрын
我有两个问题 1. 整个模型中的所有参数,包括W_Q, W_K, W_V,以及dense layer参数,softmax参数等等都是在最后翻译完成之后用cross entropy loss来一起train的吗,还是把W矩阵提前train好再拿来计算train其他参数?2. multi head的情况,怎么样获得不同的W_Q, W_K, W_V呢?既然我有一个“最好”的W矩阵来反应输入各个单词之间的关系,怎么还要不同的呢?有怎么保证它们不同?
@bobchen2817
@bobchen2817 4 жыл бұрын
😭,讲得太好了,找了好多材料~~
@user-xt5ed6ig6x
@user-xt5ed6ig6x 2 жыл бұрын
老师讲的真好
@weihuang743
@weihuang743 3 жыл бұрын
很详细,很清晰,很赞
@yanliuwang3079
@yanliuwang3079 4 жыл бұрын
谢谢宏毅老师~
@LiangyueLi
@LiangyueLi 4 жыл бұрын
讲得最清晰的影像了
@vincentyang8393
@vincentyang8393 Жыл бұрын
Great talk! thanks
@kunhongyu5702
@kunhongyu5702 3 жыл бұрын
牛逼,最清晰
@user-nl8pb1nb1u
@user-nl8pb1nb1u 6 ай бұрын
不爱学习的人也看下来了,好像脱口秀,感谢李老师的幽默!
@inaqingww
@inaqingww 3 жыл бұрын
怎么会有这么棒的老师,我真是幸运啊!!
@jackdawson2870
@jackdawson2870 6 ай бұрын
牛逼,还有informer
@tianyuwang5827
@tianyuwang5827 3 жыл бұрын
44:07, 关于"it"对于其他词的attention我有点不懂。比如计算“it”到“animal”的attention,按照之前的计算方式,结果应该只和“it”的 query vector 以及"animal"的 key vector 有关,为什么不相关的“wide”会影响到这两个词之间的attention呢?
@heqiaoruan5166
@heqiaoruan5166 3 жыл бұрын
这个老师讲的太赞了 👍
@jasonchen8486
@jasonchen8486 Жыл бұрын
Bert 是芝麻街裡的一個人物/玩偶!! 🙂早期台灣電視有芝麻街, 現在台灣人大概都不知道了, 但在美國大概沒有人不知道Bert這個人物. 在NLP領域近年很有名的 BERT and ELMo 都跟芝麻街的兩個知名玩偶同名
@JohnNeo
@JohnNeo Жыл бұрын
讲得很清楚👍
@haonanchen193
@haonanchen193 4 жыл бұрын
弘毅老师讲的太好了,感谢资源
@edisonge9311
@edisonge9311 4 жыл бұрын
很棒~
@user-xl9fs3tp8y
@user-xl9fs3tp8y 3 жыл бұрын
天涯若毗邻,这个比喻真的好形象啊,而且直接回应了LSTM的缺陷
@gladstoneclairet1499
@gladstoneclairet1499 3 жыл бұрын
学习怎么能这么开心~!!!
@xchrisliu
@xchrisliu 6 ай бұрын
之前读Transformer的文章,都会提到李老师的这个视频,今天看了一下真的是名不虚传,很多我之前有疑问的地方都被解答了
@jackdawson2870
@jackdawson2870 6 ай бұрын
seq to seq已经被transformer洗过一轮了,真实
@zhiminli4225
@zhiminli4225 2 жыл бұрын
讲的太棒了!
@walynlee2653
@walynlee2653 3 жыл бұрын
Great! Would you mind sharing the powerpoint with everyone?
@ethaneaston6443
@ethaneaston6443 Жыл бұрын
老师可以讲一下Unet吗?现在的diffusion代码实现中的Unet结构,其中的Unet用了attention和position embedding两个模块。没理解attention和position embedding两个模块怎么处理图像的
@haoteli2122
@haoteli2122 3 жыл бұрын
老师讲得太好了,我都tm庆幸母语是中文
@fionafan8267
@fionafan8267 3 жыл бұрын
想請問老師, 那麼 W_Q, W_K, W_V 是怎麼確定的呢?
@player-eric
@player-eric 3 жыл бұрын
请问一下,W^q的权值是共享的吗?
@yanfeizhang3580
@yanfeizhang3580 11 ай бұрын
老师,请问masked multi-head attention能做一个解释吗?不太理解这个机制
@jllee5374
@jllee5374 3 жыл бұрын
講的太好了,沒有比李老師講的更好的了。李宏毅老師了不起呀。
@aaronsarinana1654
@aaronsarinana1654 2 жыл бұрын
It would be nice to have sub-titles!
@jiabaowen5059
@jiabaowen5059 3 жыл бұрын
太强了
@cgqqqq
@cgqqqq 3 жыл бұрын
厉害,太多的视频要么是烂大街的high level,和你泛泛而谈attention有什么特点,要么是low level,xx软件工程师一上来就是矩阵运算各种工程code,只会写代码也不知道为什么要这么弄,李教授的视频能把high level和low level都串联到了,让人知其然知其所以然,这个是真的厉害,感谢!
@tdye2472
@tdye2472 4 жыл бұрын
讲得太棒了,PPT的也炒鸡棒!!!
@xiangsong8942
@xiangsong8942 3 жыл бұрын
全网最佳
@xiuxiu0801
@xiuxiu0801 3 жыл бұрын
我竟然看懂了。。。。要哭了
@mao1mao
@mao1mao 9 ай бұрын
那几个q\k\v的原理我不太明白,每个字都有自己的q,跟其他字的k的相似度代表了attention,然后再乘上对方的v。这整套的逻辑是啥呢? 以及生成q\k\v的几个矩阵为啥是不同字符间通用的呢?
@jasonwu8166
@jasonwu8166 4 жыл бұрын
谢谢老师的讲解! 有个问题, 为什么RNN不能够像self attention一样做到平行计算?
@user-tb1vb7rn8t
@user-tb1vb7rn8t 3 жыл бұрын
因為RNN的算法,它會依序計算一句話的每個字,每個字又要有前一個字的hidden變量才能計算。
@haomayor6306
@haomayor6306 3 жыл бұрын
跪谢李宏毅老师
@vanchurwong6849
@vanchurwong6849 5 жыл бұрын
感谢李老师
@beizhou2488
@beizhou2488 5 жыл бұрын
李老师,您好。self-attention现在已经有慢慢取代LSTM的趋势了么?
@AIPlayerrrr
@AIPlayerrrr 4 жыл бұрын
现在已经完全取代啦。
@wangbenqi8938
@wangbenqi8938 5 жыл бұрын
怒赞一波
@user-gf5yn5hm7n
@user-gf5yn5hm7n 5 жыл бұрын
大赞
@Natural_Motion
@Natural_Motion 5 ай бұрын
请教下W矩阵怎么理解的呢?
@user-wx5fv5mt7g
@user-wx5fv5mt7g 3 жыл бұрын
41.40的时候,老师说:这个decoder的input是前一个()所产生的output,括号里说的那个英文单词是什么?tai side怪怪的,没听懂。求助一下。
@stanley9534
@stanley9534 2 жыл бұрын
timestamp
@anynamecanbeuse
@anynamecanbeuse 5 жыл бұрын
请问老师,self-attention能否取代cnn的backbone去做图像分类问题呢
@HungyiLeeNTU
@HungyiLeeNTU 5 жыл бұрын
Self-attention 確實已經被用在影像相關的應用上,不過我認為短時間內 CNN 仍會被繼續使用。當 Self-attention 只 attend 在一個範圍(你可以想成就像是CNN 的receptive field)內時,它的作用會類似CNN filter,但與其讓 self-attention自己學到要 attend 在某一個範圍內,還不如直接透過 CNN 的 filter 告訴 network
@anynamecanbeuse
@anynamecanbeuse 5 жыл бұрын
@@HungyiLeeNTU 感谢老师的解答,在听您这堂课的过程中,我感觉假设输入是整张图的像素,一个self-attention的output的感受野就可以达到整张图的范围,比cnn逐步增大感受野的计算量要小,而且语义信息更强,不知道理解的对不对。感谢您将课程分享到youtube,也期待您分享一些self-attention在影像上的应用。
@xuzhang2431
@xuzhang2431 4 жыл бұрын
@@HungyiLeeNTU 谢谢李老师的精彩课程。 现在有很多图像分类的问题都加上了注意力机制,有各种的attention,这些都叫attention models,不只是self-attention。比如CNN之后,flatten,然后加一组attention layer, 再加几层dense layers,最后做classification。 各种的attentions, 我有些混乱,李老师可不可以澄清一下?感谢!
@user-kq6gb6ej3d
@user-kq6gb6ej3d 3 жыл бұрын
听懂了
@grownupgaming
@grownupgaming Жыл бұрын
26:40 Is the head-split happening at ai? or at qi/ki/vi?
@jkrong8796
@jkrong8796 5 жыл бұрын
这么好的视频还有人踩的咯
@xiangliu2767
@xiangliu2767 2 ай бұрын
这个encode 和decode动画哪里可以看到,地址是什么
@user-cg5ke1pv1z
@user-cg5ke1pv1z 3 жыл бұрын
给力
@user-kt8nc4xd1u
@user-kt8nc4xd1u 2 жыл бұрын
At 40:03, is b=[b^1; b^2;...;b^4] or b is one of b^1, b^2, b^3, and b^4?
@beandog5445
@beandog5445 4 жыл бұрын
you save my ass
@castaway1697
@castaway1697 4 жыл бұрын
Thanks a lot!
@user-bz3ie9jm3s
@user-bz3ie9jm3s 5 жыл бұрын
课程很棒,请问老师后面会有 BERT 的讲解吗
@HungyiLeeNTU
@HungyiLeeNTU 5 жыл бұрын
會有的
@mitddxia4799
@mitddxia4799 3 жыл бұрын
第33分钟左右的矩阵分块有点问题,结果不是直接相加,而是上下的关系才对
@gourmetdata971
@gourmetdata971 3 жыл бұрын
有一个问题:positional encoding 应该是直接加上去而不是concatenate吧。原文是:The positional encodings have the same dimension d_model as the embeddings, so that the two can be summed
@gourmetdata971
@gourmetdata971 3 жыл бұрын
现在明白了, W_I是word embedding matrix, 而W_P是positional embedding matrix。所以ppt里是正确的。
@HungyiLeeNTU
@HungyiLeeNTU 3 жыл бұрын
@@gourmetdata971 沒錯 :)
@youngandy6161
@youngandy6161 Жыл бұрын
@@gourmetdata971 开始我也没理解这块,看到你的评论我也明白了,李老师将矩阵下移是换了另一种说法,和原文中是一个效果。感谢
@weiranhuang3939
@weiranhuang3939 4 жыл бұрын
就因为叫Transformer就把这个影片分类为“汽车”吗
@miku3920
@miku3920 3 жыл бұрын
feed forward 是啥
@zhixiongzhuang5819
@zhixiongzhuang5819 2 жыл бұрын
感谢!
@user-tl3bq6wl3u
@user-tl3bq6wl3u 2 ай бұрын
每一个Wq,Wk,Wv,是不是都是一样的呢,还是说有Wq1,Wq2,Wq3....Wqi呢
@intoeleven
@intoeleven 4 жыл бұрын
请问老师课件slides有下载吗?多谢
@intoeleven
@intoeleven 4 жыл бұрын
自己找到了 speech.ee.ntu.edu.tw/~tlkagk/courses/ML_2019/Lecture/Transformer%20(v5).pdf
ELMO, BERT, GPT
1:04:52
Hung-yi Lee
Рет қаралды 111 М.
New Gadgets! Bycycle 4.0 🚲 #shorts
00:14
BongBee Family
Рет қаралды 13 МЛН
Как быстро замутить ЭлектроСамокат
00:59
ЖЕЛЕЗНЫЙ КОРОЛЬ
Рет қаралды 12 МЛН
CS480/680 Lecture 19: Attention and Transformer Networks
1:22:38
Pascal Poupart
Рет қаралды 338 М.
GPT-4o 背後可能的語音技術猜測
38:13
Hung-yi Lee
Рет қаралды 44 М.
ChatGPT (可能)是怎麼煉成的 - GPT 社會化的過程
17:55
Hung-yi Lee
Рет қаралды 271 М.
Emergency Tire Repair: Fixing a Flat Tire in Minutes
0:26
D Collection
Рет қаралды 22 МЛН
Be kind and donate #c8 #automobile #corvette #sportscar #funny #corvettec8 #americancar #memes
1:01
Eidan Sanker / Don’t Touch My Car
Рет қаралды 20 МЛН