【生成式AI導論 2024】第10講:今日的語言模型是如何做文字接龍的 - 淺談Transformer (已經熟悉 Transformer 的同學可略過本講)

  Рет қаралды 17,312

Hung-yi Lee

Hung-yi Lee

Ай бұрын

投影片:drive.google.com/file/d/1KeNA...
為了能讓第一次學習Transformer的同學可以更容易了解其內容,本課程對 Transformer 的說明進行了部分簡化
19:10 計算關聯性的模型內部運作如下:先把兩個輸入分別乘上兩個不同的 Matrix (這兩個 Matrix 是透過訓練資料學得) 得到兩個向量 (也就是得到文獻上常常提到的 query q 和 key k),再把這兩個向量做內積得到 Attention Weight
20:40 此處省略了文獻上常常提到的 value v
22:30 根據上述Attention Weight的計算過程,Attention Matrix 不一定是對稱的,自己對自己做 Attention 算出來的 Attention Weight 也不一定是最高的
23:00 因為 Causal Attention 的原因,Attention Matrix 其實是一個 Triangular Matrix
延伸閱讀
• 【機器學習2021】Transformer (上)
• 【機器學習2021】Transformer (下)

Пікірлер: 27
@hankdonald7812
@hankdonald7812 23 күн бұрын
0:40 大语言模型所做的事情,就是文字接龙 3:15 大语言模型所用类神经网络之一Transformer概述 4:53 1,Tokenization 文字转为Token 9:18 2,Input Layer 理解Token,该阶段会将Token转为Vector(Embedding),LLM并不理解单纯的Token的意思,而可以理解每个Embedding的意思。Positional Embedding是加了位置信息的Embedding。 15:47 3,Attention 理解上下文,将Positional Embedding转为 Contextualized Token Embedding。 26:02 4,Feed Forward 整合、思考 28:07 5,Output Layer 得到输出 29:01 大语言模型运作过程,chatGPT只考虑左边已经输入的文字,无需考虑右边文字。 33:16 为什么处理超长文本是挑战,因为计算Attention的次数是与文本长度的平方成正比的,所以增加文本长度后,计算量的增加是非常大的。
@sunnynie4290
@sunnynie4290 Ай бұрын
您真是天生的好老师, 我一直没换台,居然能听得津津有味
@NickHuang
@NickHuang Ай бұрын
謝謝老師分享,很棒的教程和內容,很喜歡說明的條理和安排方式。
@mengyuge3369
@mengyuge3369 28 күн бұрын
大爱李老师,我现在工作了,但是还是爱听老师讲课
@danpoo007
@danpoo007 Ай бұрын
謝謝老師~趕緊配午餐看XD
@user-gh2bl7ly4y
@user-gh2bl7ly4y Ай бұрын
感謝老師的更新❤
@Harvey-ov3pe
@Harvey-ov3pe 26 күн бұрын
谢谢老师!介绍得太清晰了
@HungHsunHuang
@HungHsunHuang Ай бұрын
想請問老師,BERT的"Bidirectional",是否可以理解為 "會判斷token以及其右邊(下文)相關性" 的attention模組呢?
@deskeyi
@deskeyi Ай бұрын
本來就是這個意思,這是BERT和GPT的主要區別之一
@Patricia_Liu
@Patricia_Liu 29 күн бұрын
謝謝老師!
@JiangwenQvQ
@JiangwenQvQ Ай бұрын
每一节课都在追
@Terry0319
@Terry0319 28 күн бұрын
謝謝老師
@dashunwang6267
@dashunwang6267 Ай бұрын
老师能不能讲下RWKV 哈哈 😊
@philyu1117
@philyu1117 15 күн бұрын
感謝老師講解,想請教在理解每個Token位置做Positional embedding時是根據token在句子不同位置的不同意思做embedding嗎?這時候不會有attention考慮上下文嗎?
@fortunaarcheryn6365
@fortunaarcheryn6365 21 күн бұрын
这支影片讲得不错,终于明白了nn和transformer和attention的亿点点关系
@user-hr3dg7yt6b
@user-hr3dg7yt6b 12 күн бұрын
沒有考慮到rwkv的架構比Mamba更準確也在不斷地迭代中
@810602jay
@810602jay 29 күн бұрын
輸入的文字長度不一定,之後長度也會越來越長 (auto-regressive),所以 Input Layer 餵進去的 token 長度是可變的嗎?
@xaviertsai4063
@xaviertsai4063 27 күн бұрын
上課啦~開始進入需要長考的內容了😢
@fanwu-kd1nr
@fanwu-kd1nr 29 күн бұрын
老师什么时候讲讲mamba\jamba
@gilberthsu6306
@gilberthsu6306 13 күн бұрын
mamba out了
@dxwinux
@dxwinux 29 күн бұрын
反复思考(transformer block层数)这个过程的(固定)次数背后的现在的思考是什么呢?为什么不是类似于pagerank,说你看,我继续思考已经不产生新的significant的思路了,咱们可以停止思考了。。。
@fanwu-kd1nr
@fanwu-kd1nr 29 күн бұрын
老师这个 “如何快速进行attention”的视频在哪看?链接好像挂了
@HungyiLeeNTU
@HungyiLeeNTU 23 күн бұрын
在這裡: kzbin.info/www/bejne/r3nScqRnfrmSpcksi=2ZqqelyCYrt8l7DT
@user-tp4ys2re5m
@user-tp4ys2re5m 27 күн бұрын
为什么要这样拆
@user-yc6tf9mw7o
@user-yc6tf9mw7o Ай бұрын
第一
@user-tp4ys2re5m
@user-tp4ys2re5m 27 күн бұрын
😂ye s
@k3el07
@k3el07 Ай бұрын
我觉得这些网民经常把自己放在警察、法官和裁判的角色,甚至是村头大妈的角色。这个悲伤的故事其实就是因为意外的疾病导致的灾难而已。如果不是这样,他们也是和美幸福的一家人。夫妻同命鸟,所有的幸福和灾难都是两个人一起承担的。人家自己没有意见别人根本没有任何立场胡乱评判的。
КАРМАНЧИК 2 СЕЗОН 6 СЕРИЯ
21:57
Inter Production
Рет қаралды 445 М.
1 класс vs 11 класс (неаккуратность)
01:00
БЕРТ
Рет қаралды 4,8 МЛН
格斗裁判暴力执法!#fighting #shorts
00:15
武林之巅
Рет қаралды 91 МЛН
Would you like a delicious big mooncake? #shorts#Mooncake #China #Chinesefood
00:30
10 分钟 理论 + 实操 搞懂 WebSocket
9:03
FireUG技术社区
Рет қаралды 13 М.
【機器學習2021】Transformer (上)
32:48
Hung-yi Lee
Рет қаралды 185 М.
【機器學習2021】自注意力機制 (Self-attention) (上)
28:18
llama3 06 基于llama factory和自定义数据集进行模型微调
22:13
Xiaomi Note 13 Pro по безумной цене в России
0:43
Простые Технологии
Рет қаралды 2 МЛН
cool watercooled mobile phone radiator #tech #cooler #ytfeed
0:14
Stark Edition
Рет қаралды 7 МЛН
ПРОБЛЕМА МЕХАНИЧЕСКИХ КЛАВИАТУР!🤬
0:59
Корнеич
Рет қаралды 3,5 МЛН