【機器學習2021】Transformer (下)

  Рет қаралды 165,336

Hung-yi Lee

Hung-yi Lee

Күн бұрын

Пікірлер: 87
@hudsonvan4322
@hudsonvan4322 9 ай бұрын
老師的講解真的很實用,跨時空造福整個亞洲圈,3年前還沒有資源可以玩整個 trasformer,甚至不少人認為trasformer的訓練只有大企業才玩得起,可能發展不會那麼快。誰知道後來 Lora 與 adaption 技術出來之後,人人都可以為快樂微調 LLM 了。並且現在的 instruct 系列的 LLM 都是 based on Transformer 架構,所以要了解 chatGPT, Gemini 的原理,仍然要回來複習這部最經典的 trasformer 課程影片。
@鄧惇益
@鄧惇益 9 ай бұрын
要train transformer需要用什麼工具啊?tensorflow已經不夠用了是嘛?需要你說的Lora 與 adaption是嘛?
@lizijing
@lizijing 3 күн бұрын
@@鄧惇益 lora和adaption不是用来train Transformer的,而是finetuning Transformer架构下的大模型的。要train Transformer还是建议pytorch,毕竟现在整个学术界基本上都是用pytorch来开发神经网络
@shanggao5336
@shanggao5336 2 жыл бұрын
特别感谢李老师的讲解。能够将复杂的概念讲清楚,除了真正的理解,还有对传道授业解惑的热忱。相信李老师桃李满天下,值得“老师”这一尊称!👍
@haowang-eb1lz
@haowang-eb1lz 9 ай бұрын
我讲实话,在看李老师的视频之前,我从来没搞懂transformer到底是怎么运作的,真的讲得太好了,李老师配享太庙!
@chito0206
@chito0206 3 жыл бұрын
感謝李老師的分享~ ML全部都是看您的影片自學的,真的講的非常清楚,讓我好羨慕台大的學生ww
@houwenhe4748
@houwenhe4748 Жыл бұрын
把所有要素掰开揉碎了授课方式很容易吸收,而且还有直观的理解,不但知识学习,还会让我重新思考,真的受益匪浅,谢谢。
@majack4300
@majack4300 3 жыл бұрын
感谢李老师的分享,听李老师讲课是一种享受。
@alvinpan2255
@alvinpan2255 2 жыл бұрын
通过李老师讲得,终于理清楚了seq2seq,transformer和attention之间的关系,而且后面的启发性思考太棒了!!
@TTM366
@TTM366 Жыл бұрын
從JOJO、諸葛村夫到小傑不能使用念能力😂 老師真的講的很好,謝謝提供這樣的課程內容!
@TTM366
@TTM366 Жыл бұрын
還有硬train一發 哈哈哈
@李唱-e9b
@李唱-e9b 7 ай бұрын
十分感谢李老师的讲解。一直对于transformer的组成,各部分设计的原因和作用有很多不理解的地方,停下来之后真的豁然开朗。感谢!
@yhwang366
@yhwang366 3 жыл бұрын
油管中文视频讲的最好的老师了
@陳翰儒-d5m
@陳翰儒-d5m 3 жыл бұрын
謝謝老師的無私分享
@anonymouslinkmust2482
@anonymouslinkmust2482 Жыл бұрын
老师太棒了,从哔哩哔哩转战到youtube来看老师啦
@tuchai5067
@tuchai5067 Жыл бұрын
+1
@noonehere238
@noonehere238 Ай бұрын
李教授是人类宝贵的财富。
@bowenyi-kj3vr
@bowenyi-kj3vr 9 ай бұрын
非常感谢李老师的讲解,深入浅出,比KZbin上其他的讲解都好;配合Dan Jurafsky的教材一起看便帮助很大!
@ろんサトシ
@ろんサトシ 3 жыл бұрын
老师您真的很喜欢「硬 Train 一发」。
@zekunnnnnn6532
@zekunnnnnn6532 Жыл бұрын
哭惹 老师的课怎么上这么好啊!!
@ruanjiayang
@ruanjiayang 3 жыл бұрын
关于为什么有些任务(例如TTS)需要在inference的时候加noise,其本质原因在于这种任务的ground truth本身就不具备唯一性(这并不是outlier哦),如果硬train,对于某一个input,输出的拟合结果实质是介于若干个ground truth之间的均值,所以不像人声,这种现象在训练集的ground truth中有不同音色、语速的人时会更明显。
@jiashupan9181
@jiashupan9181 3 жыл бұрын
谢谢你!我明白了,是和后面的GAN提到的吃豆人视频生成一个道理吧。(如果你暂时还没有看的话,因为训练资料里既有向左的糖豆人,又有向右的糖豆人,ground truth不唯一,所以最后生成的视频里吃豆人会分身,也就是ground truth的平均)但是在为什么加noise会抑制这种现象呢?(具体noise又是加在哪里呢?输入还是ground truth?)
@peiniguo8304
@peiniguo8304 3 жыл бұрын
@@jiashupan9181 我也有同样的问题!希望可以得到解答!
@tony10130
@tony10130 2 жыл бұрын
@@jiashupan9181 我的猜測是,加noise可一定程度避免"輸入完全等於訓練時看過的資料",例如: 今天天氣真好 => 今天天氣真豪 或是 今天天氣真好!! 因為現在的深度模型大部分都已經overfitted,因此只要在訓練集看過,基本上都可以直接return訓練集結果,而對於多個ground truth的example,就是平均值。總之就是避免"輸入完全等於訓練看過的資料"。
@qq_cat
@qq_cat Жыл бұрын
三刷了,每次都有新的收获
@Li-oy2bo
@Li-oy2bo 3 жыл бұрын
还是得多看别的资料,才能比较熟悉transformer
@HebrewSongPod
@HebrewSongPod Жыл бұрын
30:15 想請問老師,那張表的y軸單位是什麼啊? 看不太懂這種表... 謝謝
@zijianwang858
@zijianwang858 8 ай бұрын
太感谢李老师的。李老师是我的唯一男神!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
@pandapunchzz
@pandapunchzz 15 күн бұрын
”团长很久没出来了“ 又在暗示富坚老贼。这个点上跟李老师无比的近
@qw4316
@qw4316 3 жыл бұрын
李老师、您有没有依托代码讲解的deep learning课程
@ivantam9432
@ivantam9432 Жыл бұрын
網上找了一堆cross attention的片,你這個很清楚,thanks!
@incendioraven4269
@incendioraven4269 Жыл бұрын
老师, NAT这四个BEGIN有点不太懂
@baobaolong423
@baobaolong423 3 жыл бұрын
终于更新了!
@devin6833
@devin6833 3 жыл бұрын
讲的实在是太好了
@hawkiyc
@hawkiyc 3 ай бұрын
老師您好,我想請問一下shift right到底指的是什麼? 假設我們正在訓練一個機器翻譯模型,而某一筆輸入是像下面這樣,X是原始語言,Y是目標語言 sample X1 = [, x11, x12, x13, ..., x1i, ] sample Y1 = [, y11, y12, y13, ..., y1j, ] i, j 可以不相等 decoder input: [, y11, y12, y13, ..., y1j] decoder output: [y11, y12, y13, ..., y1j, ] 根據我查到的資料,實際上在訓練的時候,encoder的輸入會像上面這樣,而shift right的目的只是為了讓decoder的輸入輸出是等長的,這樣的理解是對的嗎? 另外一個問題是,即使上面是對的,實際操作的時候,通常輸入不是會動態padding到該batch最長的sequence長度,或是模型的max seq length?那這樣decoder的輸入跟輸出,不就還是會有一堆的 token?當然在訓練的時候,可以透過padding mask來消除 token的影響,可是這樣是不是代表在推論的時候,就要加上一段code來讓模型在輸出後強制停止?
@客家饒舌執牛耳
@客家饒舌執牛耳 3 жыл бұрын
謝謝李教授 教授真的硬帥一發
@铃屋什造-d1w
@铃屋什造-d1w 7 ай бұрын
感谢李老师的视频,这个视频对应的作业有网址么。
@LukeJacob-s8n
@LukeJacob-s8n 8 ай бұрын
老师,感谢分享。不知道有作业链接吗?
@kkchi5873
@kkchi5873 2 ай бұрын
decoder 里input的outputs是什么
@yoshiyuki1732ify
@yoshiyuki1732ify Жыл бұрын
我有个疑惑,可能有点Picky,Decoder明显是有输入的模型,叫autoregressive 是不是有些迷惑性呢?
@rulala
@rulala 2 жыл бұрын
Decoder上一步是把输出的结果softmax以后选出词表里面的词嵌入还是one-hot编码给到当前的输入呢?这里感觉不清楚
@tonygan1132
@tonygan1132 Жыл бұрын
非常感谢,直接跪地磕头,老师能不能讲讲Transformer在CV领域的应用,NLP已经讲很多了
@asdfasdfsd
@asdfasdfsd 9 ай бұрын
AT NAT 里的 “T” 代表什么意思?
@georgechang5994
@georgechang5994 Жыл бұрын
老师您好!请问Decoder的输入Output Embeding如何理解? 不能是one hot向量直接输入吧,one hot向量全是两两正交的,相乘不都变零了么?
@rikki146
@rikki146 Жыл бұрын
不是跟 input embedding 獲得方法一樣?
@hudsonvan4322
@hudsonvan4322 9 ай бұрын
你可以從十年前的 Language model 來理解會更容易想通,也就是 google 提出來的 word2vec tensorflow 官方教學程式碼,其實語言模型會有一個 python dict 的 lexicon (辭典),用來將 NLP token (如: 中文詞彙、英文 sub-word) 與 word embedding 做對應。word embedding 是 trainable,當 model decoder forwarding 的時候輸出的 embeddings 可以用第一版的 dict 來查詢 word embedding 究竟是對應什麼 NLP token;接著,backward 之後,會更新 dict 裡面的 word embeddings 向量 (最佳情況可以想成相關的 word 的 embedding 變得更接近、相反意義的 embedding 拉得更遠),這就產生新一版的 dict。所以回答你的疑問,其實模型計算時使用的 Embeding 是 trainable embedding 而不是 one hot vector。程式實作上不會單用一個 dict 來轉換 embedding 與 NLP tokens,而是用 2 個 dict 來間接轉換,你可以用 1 個 dict 把 NLP token 轉成 one-hot 以方便程式撰寫,同時會用第 2 個 dict 把 one-hot 再轉成 trainable word embedding,所以實際上模型計算時是使用 word embedding 而不是 one-hot vector。one-hot vector 是要把模型輸出的 embedding 轉成人類看得懂的語言的時候才會用到。
@飄飄-k1g
@飄飄-k1g 7 ай бұрын
菜鳥來簽名..... 講的好明白, 害我對神經網路的神祕感消失大半
@deskeyi
@deskeyi Жыл бұрын
43:27 老師試試「高雄發大財」😂
@MRharryshieh
@MRharryshieh 3 жыл бұрын
終於搞懂了😭
@TomChenyangJI
@TomChenyangJI 6 ай бұрын
是不是可以认为这里的问题是overfit @55:42
@daddydear9610
@daddydear9610 Жыл бұрын
这个上和下,怎么感觉内容没有连上。。
@jijie133
@jijie133 2 жыл бұрын
Now I know the difference between autoregressive decoder and non autoregressive decoder.
@jijie133
@jijie133 2 жыл бұрын
很好的视频
@布丁-z8m
@布丁-z8m 3 жыл бұрын
太讚了
@tonygan1132
@tonygan1132 Жыл бұрын
硬train一发,从call back到three-peat,到停不下来
@yongminghe2386
@yongminghe2386 3 жыл бұрын
为什么在做cross-attention的时候是一边的Q和另一边的K,V做,而不是一边的Q和K与另一边的V或者一边的Q和V与另一边的K呢?
@福运汪
@福运汪 3 жыл бұрын
我觉得你可能对Transformer的理解有些问题。我尝试跟你解释一下,attention要做的简单讲,就是用q,k求出v对应的比例,对所有的v进行weighted sum。这里的Q,之所以称之为Q,其实是Query的缩写,所以q的个数确定了后面生成的向量的数量。我的意思是,Q可以跟K,V的数量不同,但是K,V的个数必须是相同的,他们是成对出现的。
@鹏鹏王-e7x
@鹏鹏王-e7x Жыл бұрын
李老师太牛了,放个二维码吧 我想给你扫码了
@lifengshi5237
@lifengshi5237 3 жыл бұрын
助教的课在哪儿呢
@percyyang2794
@percyyang2794 3 жыл бұрын
同问
@easonh6050
@easonh6050 Жыл бұрын
老师真的是我在生父母啊
@difeitang1823
@difeitang1823 2 жыл бұрын
那这样子不还是输入N个,输出N个吗?
@laplaceha6700
@laplaceha6700 2 жыл бұрын
transformer內的encoder是輸入n個(長度為n的向量序列vector seq)輸出n個(因為是用self-attention模組);decoder是輸入n'個輸出n'個,但transformer本身輸入是n個,輸出是n'個,輸入長度不等於輸出長度。
@difeitang1823
@difeitang1823 Жыл бұрын
嗯,看明白了,n‘长度是decoder自己决定的@@laplaceha6700
@nekokiku2918
@nekokiku2918 3 жыл бұрын
第一时间赶来学习
@miku3920
@miku3920 3 жыл бұрын
Beam Search = Monte Carlo Tree Search ?
@福运汪
@福运汪 3 жыл бұрын
Beam Search可以看作是贪心与穷举的折中。
@jijie133
@jijie133 2 жыл бұрын
Great video!
@Jack-dx7qb
@Jack-dx7qb 2 жыл бұрын
太美了...
@darkbreker2271
@darkbreker2271 3 жыл бұрын
老師我想問一下 台大的機器學習課程是只有大三有開課嗎?
@xiaoyusi5582
@xiaoyusi5582 3 жыл бұрын
研究生也在修的
@alvinpan2255
@alvinpan2255 2 жыл бұрын
李老师 开源学习 yyds!!!!!
@igocs-z1o
@igocs-z1o 5 ай бұрын
自然会有人交学~没事有事大家一起当
@bingeng2272
@bingeng2272 5 ай бұрын
借您吉言,输入“习”字后就输出“断”。
@lingju9942
@lingju9942 3 жыл бұрын
留下我的脚印哈哈哈哈
@ruanjiayang
@ruanjiayang 3 жыл бұрын
硬train一发!
@chunyuyang911
@chunyuyang911 3 жыл бұрын
inference, not influence
@JinzhuWANG
@JinzhuWANG 3 жыл бұрын
4:30 听到了下课铃声
@huanhuanzhang9641
@huanhuanzhang9641 2 жыл бұрын
团长在黑暗大陆会不会凉
@taoo4612
@taoo4612 2 жыл бұрын
硬train一發
@asherwang3336
@asherwang3336 3 жыл бұрын
硬 Train 一发!
@yijiewu3754
@yijiewu3754 2 жыл бұрын
encoder你忘了就算了 :)
@space20021
@space20021 4 ай бұрын
=====斷=====
@junpengqiu4054
@junpengqiu4054 Жыл бұрын
kzbin.info/www/bejne/hGfEg6lma86paMk 突然乱入幻影兵团
@呆橘-b7o
@呆橘-b7o 3 жыл бұрын
6666666 yyds
@left_right_men
@left_right_men 3 жыл бұрын
謝謝老師的無私分享
@jackzhang2811
@jackzhang2811 3 жыл бұрын
硬train一发!
Transformer
49:32
Hung-yi Lee
Рет қаралды 207 М.
Арыстанның айқасы, Тәуіржанның шайқасы!
25:51
QosLike / ҚосЛайк / Косылайық
Рет қаралды 700 М.
It’s all not real
00:15
V.A. show / Магика
Рет қаралды 20 МЛН
【機器學習2021】自注意力機制 (Self-attention) (上)
28:18
Transformer论文逐段精读
1:27:05
跟李沐学AI
Рет қаралды 429 М.
AI時代,你跟上了嗎?|李宏毅|人文講堂|完整版 20231209
24:01
ТРЕШОВЫЙ ПК С WB ЗА 16 тысяч рублей
26:33
Ремонтяш
Рет қаралды 381 М.
Анимация логотипа для компании MYCOM
0:46
FreelStep Shorts
Рет қаралды 2 МЛН
How to Hide Phone in School 😱 #shorts
0:45
Mr DegrEE
Рет қаралды 4,7 МЛН
НЕ ПОКУПАЙ iPhone 17 Air!
0:40
ÉЖИ АКСЁНОВ
Рет қаралды 5 МЛН