【生成式AI導論 2024】第10講：今日的語言模型是如何做文字接龍的 - 淺談Transformer (已經熟悉 Transformer 的同學可略過本講)

Рет қаралды 40,176

Hung-yi Lee

Күн бұрын

Пікірлер: 45

@2142CHESTER 7 сағат бұрын

謝謝老師~聽完前幾年的詳細版本,再來聽今年的版本,對於transformer的概念有更深一層的領悟,感謝^^

@sunnynie4290 6 ай бұрын

您真是天生的好老师，我一直没换台，居然能听得津津有味

@XChloeC 2 ай бұрын

用英语学这些我一直左耳进右耳出，李老师是我的救星，一下就看懂了

@hankdonald7812 6 ай бұрын

0:40 大语言模型所做的事情，就是文字接龙 3:15 大语言模型所用类神经网络之一Transformer概述 4:53 1，Tokenization 文字转为Token 9:18 2，Input Layer 理解Token，该阶段会将Token转为Vector(Embedding)，LLM并不理解单纯的Token的意思，而可以理解每个Embedding的意思。Positional Embedding是加了位置信息的Embedding。 15:47 3，Attention 理解上下文，将Positional Embedding转为 Contextualized Token Embedding。 26:02 4，Feed Forward 整合、思考 28:07 5，Output Layer 得到输出 29:01 大语言模型运作过程，chatGPT只考虑左边已经输入的文字，无需考虑右边文字。 33:16 为什么处理超长文本是挑战，因为计算Attention的次数是与文本长度的平方成正比的，所以增加文本长度后，计算量的增加是非常大的。

@yancao5647 18 күн бұрын

太佩服李老师了，都讲到这个深度了，居然把KQV给绕过去了，然后还给讲明白了

@jiayizhang7406 2 ай бұрын

说真的，其实懂得transformer的同学也很值得再听一听，还是蛮有收获的

@NickHuang 6 ай бұрын

謝謝老師分享，很棒的教程和內容，很喜歡說明的條理和安排方式。

@mengyuge3369 6 ай бұрын

大爱李老师，我现在工作了，但是还是爱听老师讲课

@XDwang-t9s 4 ай бұрын

深入浅出，而且都是前沿知识，非常有价值。

@lucas_shao 4 ай бұрын

李老师你好，真的觉得您上课的风格非常棒，通俗易懂

@ericzhang4173 Ай бұрын

看了好多论文没明白attention，李老师一讲就明白🎉🎉

@蔡文嘉-i4z 6 ай бұрын

感謝老師的更新❤

@danpoo007 6 ай бұрын

謝謝老師~趕緊配午餐看XD

@fortunaarcheryn6365 6 ай бұрын

这支影片讲得不错，终于明白了nn和transformer和attention的亿点点关系

@xinzheng2757 4 ай бұрын

真是AI高手与良师

@Harvey-ov3pe 6 ай бұрын

谢谢老师！介绍得太清晰了

@Patricia_Liu 6 ай бұрын

謝謝老師!

@Terry0319 6 ай бұрын

謝謝老師

@JiangwenQvQ 6 ай бұрын

每一节课都在追

@wc2091 5 ай бұрын

老師的影片常常和過去的影片attention

@HungHsunHuang 6 ай бұрын

想請問老師，BERT的"Bidirectional"，是否可以理解為 "會判斷token以及其右邊(下文)相關性" 的attention模組呢?

@deskeyi 6 ай бұрын

本來就是這個意思，這是BERT和GPT的主要區別之一

@xaviertsai4063 6 ай бұрын

上課啦～開始進入需要長考的內容了😢

@810602jay 6 ай бұрын

輸入的文字長度不一定，之後長度也會越來越長 (auto-regressive)，所以 Input Layer 餵進去的 token 長度是可變的嗎?

@kyc1109tw 4 ай бұрын

Attention 會不會是因為文字是從左到右讀，所以只著重在左邊，因為右邊反而詞不達意。

@philyu1117 6 ай бұрын

感謝老師講解，想請教在理解每個Token位置做Positional embedding時是根據token在句子不同位置的不同意思做embedding嗎？這時候不會有attention考慮上下文嗎？

@allenchen8559 5 ай бұрын

應該不是，positional embedding 是token embedding 送進 attention 前，各個位子加一個自己位子的向量（影片提到向量以前自己設，後來交給模型train），跟字意無關，也跟上下文無關，只跟自己所在位子有關，因此像個position 的標記。

@philyu1117 5 ай бұрын

@@allenchen8559 謝謝！

@FriedmanStepthen 3 ай бұрын

想要請教老師一個問題，一個embedding和自己計算相關性時會得到什麼？我看到ppt上兩個例子，一個得到0.5，一個得到0.3

@葉鴻-x8b 6 ай бұрын

沒有考慮到rwkv的架構比Mamba更準確也在不斷地迭代中

@j-jd8yf 17 күн бұрын

32:20这块说的不好，不是不用管，你还要输出w2，怎么可能不算AI和w1之间的关联性？

@fanwu-kd1nr 6 ай бұрын

老师这个 “如何快速进行attention”的视频在哪看？链接好像挂了

@HungyiLeeNTU 6 ай бұрын

在這裡: kzbin.info/www/bejne/r3nScqRnfrmSpcksi=2ZqqelyCYrt8l7DT

@Joseph_Lan 4 ай бұрын

請問教授, 您說每一個token對應的向量就是語言模型的參數, 那如果GPT3 參數是175B, 那每個Token經過embedding 程序就會形成175B x 1 的矩陣(向量)嗎? 先謝謝教授的回答

@colafish2152 4 ай бұрын

GPT3的参数是175B，这个175B参数可能是计算多头attention时候的权重，还有feed forward神经网络的参数，两部分参数的和。而做Token的embedding时候，得到表示token语意的向量的时候，这个向量的长度不是175B，而是一个可能数值为几千，或者1万多的数字。这是我在学习transformer架构时的一些理解，也不能保证正确性。

@dashunwang6267 6 ай бұрын

老师能不能讲下RWKV 哈哈 😊

@fanwu-kd1nr 6 ай бұрын

老师什么时候讲讲mamba\jamba

@gilberthsu6306 6 ай бұрын

mamba out了

@fanwu-kd1nr 5 ай бұрын

@@gilberthsu6306 really?

@waynechuang8072 3 ай бұрын

I think mamba is still a promising model architecture. As shown in the latest Kaggle competition Leap, one of the top solutions uses mamba as the base model.