【生成式AI導論 2024】第10講:今日的語言模型是如何做文字接龍的 - 淺談Transformer (已經熟悉 Transformer 的同學可略過本講)

  Рет қаралды 40,176

Hung-yi Lee

Hung-yi Lee

Күн бұрын

Пікірлер: 45
@2142CHESTER
@2142CHESTER 7 сағат бұрын
謝謝老師~聽完前幾年的詳細版本,再來聽今年的版本,對於transformer的概念有更深一層的領悟,感謝^^
@sunnynie4290
@sunnynie4290 6 ай бұрын
您真是天生的好老师, 我一直没换台,居然能听得津津有味
@XChloeC
@XChloeC 2 ай бұрын
用英语学这些我一直左耳进右耳出,李老师是我的救星,一下就看懂了
@hankdonald7812
@hankdonald7812 6 ай бұрын
0:40 大语言模型所做的事情,就是文字接龙 3:15 大语言模型所用类神经网络之一Transformer概述 4:53 1,Tokenization 文字转为Token 9:18 2,Input Layer 理解Token,该阶段会将Token转为Vector(Embedding),LLM并不理解单纯的Token的意思,而可以理解每个Embedding的意思。Positional Embedding是加了位置信息的Embedding。 15:47 3,Attention 理解上下文,将Positional Embedding转为 Contextualized Token Embedding。 26:02 4,Feed Forward 整合、思考 28:07 5,Output Layer 得到输出 29:01 大语言模型运作过程,chatGPT只考虑左边已经输入的文字,无需考虑右边文字。 33:16 为什么处理超长文本是挑战,因为计算Attention的次数是与文本长度的平方成正比的,所以增加文本长度后,计算量的增加是非常大的。
@yancao5647
@yancao5647 18 күн бұрын
太佩服李老师了,都讲到这个深度了,居然把KQV给绕过去了,然后还给讲明白了
@jiayizhang7406
@jiayizhang7406 2 ай бұрын
说真的,其实懂得transformer的同学也很值得再听一听,还是蛮有收获的
@NickHuang
@NickHuang 6 ай бұрын
謝謝老師分享,很棒的教程和內容,很喜歡說明的條理和安排方式。
@mengyuge3369
@mengyuge3369 6 ай бұрын
大爱李老师,我现在工作了,但是还是爱听老师讲课
@XDwang-t9s
@XDwang-t9s 4 ай бұрын
深入浅出,而且都是前沿知识,非常有价值。
@lucas_shao
@lucas_shao 4 ай бұрын
李老师你好,真的觉得您上课的风格非常棒,通俗易懂
@ericzhang4173
@ericzhang4173 Ай бұрын
看了好多论文没明白attention,李老师一讲就明白🎉🎉
@蔡文嘉-i4z
@蔡文嘉-i4z 6 ай бұрын
感謝老師的更新❤
@danpoo007
@danpoo007 6 ай бұрын
謝謝老師~趕緊配午餐看XD
@fortunaarcheryn6365
@fortunaarcheryn6365 6 ай бұрын
这支影片讲得不错,终于明白了nn和transformer和attention的亿点点关系
@xinzheng2757
@xinzheng2757 4 ай бұрын
真是AI高手与良师
@Harvey-ov3pe
@Harvey-ov3pe 6 ай бұрын
谢谢老师!介绍得太清晰了
@Patricia_Liu
@Patricia_Liu 6 ай бұрын
謝謝老師!
@Terry0319
@Terry0319 6 ай бұрын
謝謝老師
@JiangwenQvQ
@JiangwenQvQ 6 ай бұрын
每一节课都在追
@wc2091
@wc2091 5 ай бұрын
老師的影片常常和過去的影片attention
@HungHsunHuang
@HungHsunHuang 6 ай бұрын
想請問老師,BERT的"Bidirectional",是否可以理解為 "會判斷token以及其右邊(下文)相關性" 的attention模組呢?
@deskeyi
@deskeyi 6 ай бұрын
本來就是這個意思,這是BERT和GPT的主要區別之一
@xaviertsai4063
@xaviertsai4063 6 ай бұрын
上課啦~開始進入需要長考的內容了😢
@810602jay
@810602jay 6 ай бұрын
輸入的文字長度不一定,之後長度也會越來越長 (auto-regressive),所以 Input Layer 餵進去的 token 長度是可變的嗎?
@kyc1109tw
@kyc1109tw 4 ай бұрын
Attention 會不會是因為文字是從左到右讀,所以只著重在左邊,因為右邊反而詞不達意。
@philyu1117
@philyu1117 6 ай бұрын
感謝老師講解,想請教在理解每個Token位置做Positional embedding時是根據token在句子不同位置的不同意思做embedding嗎?這時候不會有attention考慮上下文嗎?
@allenchen8559
@allenchen8559 5 ай бұрын
應該不是,positional embedding 是token embedding 送進 attention 前,各個位子加一個自己位子的向量(影片提到向量以前自己設,後來交給模型train),跟字意無關,也跟上下文無關,只跟自己所在位子有關,因此像個position 的標記。
@philyu1117
@philyu1117 5 ай бұрын
@@allenchen8559 謝謝!
@FriedmanStepthen
@FriedmanStepthen 3 ай бұрын
想要請教老師一個問題,一個embedding和自己計算相關性時會得到什麼?我看到ppt上兩個例子,一個得到0.5,一個得到0.3
@葉鴻-x8b
@葉鴻-x8b 6 ай бұрын
沒有考慮到rwkv的架構比Mamba更準確也在不斷地迭代中
@j-jd8yf
@j-jd8yf 17 күн бұрын
32:20这块说的不好,不是不用管,你还要输出w2,怎么可能不算AI和w1之间的关联性?
@fanwu-kd1nr
@fanwu-kd1nr 6 ай бұрын
老师这个 “如何快速进行attention”的视频在哪看?链接好像挂了
@HungyiLeeNTU
@HungyiLeeNTU 6 ай бұрын
在這裡: kzbin.info/www/bejne/r3nScqRnfrmSpcksi=2ZqqelyCYrt8l7DT
@Joseph_Lan
@Joseph_Lan 4 ай бұрын
請問教授, 您說每一個token對應的向量就是語言模型的參數, 那如果GPT3 參數是175B, 那每個Token經過embedding 程序就會形成175B x 1 的矩陣(向量)嗎? 先謝謝教授的回答
@colafish2152
@colafish2152 4 ай бұрын
GPT3的参数是175B,这个175B参数可能是计算多头attention时候的权重,还有feed forward神经网络的参数,两部分参数的和。而做Token的embedding时候,得到表示token语意的向量的时候,这个向量的长度不是175B,而是一个可能数值为几千,或者1万多的数字。这是我在学习transformer架构时的一些理解,也不能保证正确性。
@dashunwang6267
@dashunwang6267 6 ай бұрын
老师能不能讲下RWKV 哈哈 😊
@fanwu-kd1nr
@fanwu-kd1nr 6 ай бұрын
老师什么时候讲讲mamba\jamba
@gilberthsu6306
@gilberthsu6306 6 ай бұрын
mamba out了
@fanwu-kd1nr
@fanwu-kd1nr 5 ай бұрын
@@gilberthsu6306 really?
@waynechuang8072
@waynechuang8072 3 ай бұрын
I think mamba is still a promising model architecture. As shown in the latest Kaggle competition Leap, one of the top solutions uses mamba as the base model.
@dxwinux
@dxwinux 6 ай бұрын
反复思考(transformer block层数)这个过程的(固定)次数背后的现在的思考是什么呢?为什么不是类似于pagerank,说你看,我继续思考已经不产生新的significant的思路了,咱们可以停止思考了。。。
@wengweng-h4m
@wengweng-h4m 6 ай бұрын
为什么要这样拆
@郭书勤
@郭书勤 6 ай бұрын
第一
@wengweng-h4m
@wengweng-h4m 6 ай бұрын
😂ye s
@k3el07
@k3el07 6 ай бұрын
我觉得这些网民经常把自己放在警察、法官和裁判的角色,甚至是村头大妈的角色。这个悲伤的故事其实就是因为意外的疾病导致的灾难而已。如果不是这样,他们也是和美幸福的一家人。夫妻同命鸟,所有的幸福和灾难都是两个人一起承担的。人家自己没有意见别人根本没有任何立场胡乱评判的。
УДИВИЛ ВСЕХ СВОИМ УХОДОМ!😳 #shorts
00:49
HARD_MMA
Рет қаралды 1,7 МЛН
Transformer论文逐段精读
1:27:05
跟李沐学AI
Рет қаралды 422 М.
ChatGPT 史上最詳解!臺大電機名師李宏毅老師|寶博朋友說 EP175
58:01
科技立委葛如鈞·寶博士
Рет қаралды 17 М.
УДИВИЛ ВСЕХ СВОИМ УХОДОМ!😳 #shorts
00:49
HARD_MMA
Рет қаралды 1,7 МЛН