从编解码和词嵌入开始,一步一步理解Transformer,注意力机制(Attention)的本质是卷积神经网络(CNN)

  Рет қаралды 104,711

王木头学科学

王木头学科学

Күн бұрын

Пікірлер: 190
@fengjieli5099
@fengjieli5099 8 ай бұрын
作为一个有博士学位的ML的专业从业者,我也从王木头的视频中学到了很多内容。讲解十分清晰,并注重直观上的理解,很有价值。辛苦了!把视频放在youtube上也是很好的想法。要不然,在国外国外的人是不容易发现的。这里要感谢一下youtube的recommendation algorithms。
@hbb21st
@hbb21st 8 ай бұрын
确实,这哥们讲得老少皆宜😂
@Murphy-e3r
@Murphy-e3r 7 ай бұрын
謙遜的老師我覺得超級棒,讓我想到台大的傲慢與不知天高地厚
@金五袋
@金五袋 7 ай бұрын
谦虚使人更加牛逼。哈哈哈哈
@卢俊-h5p
@卢俊-h5p 4 ай бұрын
你也没学到啥,但凡你有相关工作,你也没时间看完
@二楞子
@二楞子 Ай бұрын
ML 必须是博士级别才可以吗?
@yugio5991
@yugio5991 9 ай бұрын
不知不覺直接看完整個影片,講的真好,也填補了當初不解的地方。
@chenzhan4321
@chenzhan4321 9 ай бұрын
Thanks!
@kuchi13579
@kuchi13579 9 ай бұрын
致敬王老师!满满干货,我头一回慢速去看youtube视频。。。线性代数教学那个吐槽,太有同感了。。我学线性代数时候就总想直观去理解它的几何意义,可惜没琢磨这么透彻。。老师照本宣科,学生稀里糊涂。。
@huazhu
@huazhu 5 ай бұрын
我理解行列式就是方程组系数的简单写法,那些操作规则就是运算规律的总结,根本不是有机的联系,把那些运算规则作为知识来考试毫无价值。矩阵更像一个从天而降的魔方,似乎告诉学生这玩意其实就是方便重复运算才做成这样就会泄露天机大学知识就会掉价,重要的特征值和特征向量的真正含义却不深究,突然又掉下来个约当块正定啥玩意,硬是把矩阵论搞成了玄学。到“晚年”偶然看到素数的英文是Prime,才恍然大悟本意这些数字是数的“根”!终于理解中国人民为什么投入天量的人力物力财力才能培养出按比例低得可怜的精英。不改进,不解释,明者自明,人为制造学习的堑壕,这就是“臭老九”在人治社会中自保的博弈策略。向所有填补这些堑壕的战士行者致敬!
@yubichun4928
@yubichun4928 9 ай бұрын
谢谢!
@揽月楼中店小二
@揽月楼中店小二 9 ай бұрын
其实第二部分老师不用去特别的去强调割裂空间和向量之间的关系,二者本来就是一体的,空间是客观的,但是对于空间的具体描述总是需要在一个具体的坐标系中进行的,也就是说我们总是习惯于使用一组标准的单位向量去描述一个空间,这组向量一般称之为基向量,矩阵代表着对空间的变换,是针对空间中的每一个向量进行的变换,自然也包括对充当这个空间的坐标系的基向量进行的变化,二者是一回事
@chrism2660
@chrism2660 5 ай бұрын
王木头讲的很清晰。你打的这段话就很绕,可能你学术水平比他高,但是你教学水平和他还是有差距的。
@偉業-w4k
@偉業-w4k 3 ай бұрын
認同你的想法,但我想王木頭這邊會想要換一個座標系的原因應該只是讓聽眾更好理解矩陣的意涵。這樣才比較好去解釋出Vector X & Vector W 代表的意思,也才進而能帶出假如升維或降維的情況。不然對於各別向量說明空間轉換後為什麼會升維或降維對於大眾有點難理解。
@ponychen7750
@ponychen7750 9 ай бұрын
目前只看了这一集(多头注意力还没有细看),几点感受: 1,从word2vec讲起来能够让大家在短时间里面抓住Transformer的脉络,实际上Transformer在生成翻译的时候也借鉴了RNN的思想。宏观上对同学们理解Transformer的发展特别有好处。 2,对Transformer的几点细节,比如为什么要自己乘以自己,为什么不直接用A*w,为什么除以\sqrt{D_{out}}来进行训练(从概率的角度比较新颖),为什么要分成三个矩阵实际上是包含了自己的思考,对Transformer老手有一定的启发。为什么要分成三个矩阵呢,这个作者的解释有点形而上了,感觉不是很习惯,对数学思维的培养没有好处。 3,在视频制作上很明显借鉴了3blue1brown的风格,但是前后风格很不统一,前面用动画,后面开始自己用PPT演板了。 推荐同学们在对深度学习有一定了解之后再看下这个Transformer视频。可以继续关注王木头学科学的后面视频,可以期待一下。
@chenzhan4321
@chenzhan4321 Ай бұрын
嗯嗯,评论2很对。Q和K分开最简单的原因应该就是decoder里是原有的Q还有新K。关于Q和K的关系,我大概听明白了博主的哲学思考,很有趣,但是可能有些far-fetched。其实Q就是“该注意哪些特征”,K就是“本词有什么特征”,Q和K是grammatical层面信息(句法结构),V是semantical层面信息(对语法开放的词义本身)。
@jiukoumu
@jiukoumu Күн бұрын
专业😂😂
@chengchen1591
@chengchen1591 7 ай бұрын
厉害,不仅理解的透彻而且表达的清晰。能把复杂的数学问题形象的表达出来,非常佩服。
@cnalexander9268
@cnalexander9268 8 ай бұрын
哥你真的太强了,说真的,我现在只是有点基础,但是看了你的视频,我对面试深度学习方向更有信心了,非常感谢您
@LiShengtao-wj4ed
@LiShengtao-wj4ed 2 ай бұрын
我看得津津有味,这真的让人受益匪浅,老师辛苦了。
@hqm666
@hqm666 9 ай бұрын
信息量非常大,可以看出花了很大的时间精力来准备内容,非常感谢
@daniel-ej5bp
@daniel-ej5bp 8 ай бұрын
博主提到教材的问题,我有幸跟国内高校教授交流过,跟你说的如同原话,也是吐槽线性代数的教材,也同样举例- 为什么第一节是行列式-完全让学生们不知道线性代数核心精髓是什么。
@hercules1943
@hercules1943 9 ай бұрын
謝謝老師,專業,有料,表達能力超棒!
@wkaing
@wkaing 9 ай бұрын
修正:56:20秒B:=1/2(Wq·Wk^T+Wk^T·Wq)
@hangzhang9592
@hangzhang9592 9 ай бұрын
修正之后也不对吧,除非W_q和W_k本身就是对称矩阵,否则是推不出来56:20下面的那个恒等式的
@jshq8818
@jshq8818 9 ай бұрын
讲的真是太好了,尤其是向量和空间变化那一段,当初学线性代数就只会算题目了,根本不理解用来干啥的
@hongwu1502
@hongwu1502 2 ай бұрын
谢谢交流,这个视频的内容非常好。 关于为什么需要拆分QK^T矩阵,这是我的理解。 从计算等价来说,一个矩阵式可以代表他们的乘积,QK^T也永远是合在一起用。 分开的理由是实际运算时,Q和K可以映射到一个较小的维度,这样可以省计算复杂度。
@LeeLeeCode
@LeeLeeCode 2 ай бұрын
喜欢你的讲解,作为mle自愧不如,特别是语言表达方面。
@wutangtang8590
@wutangtang8590 9 күн бұрын
讲得真好,感谢博主~ 另外非常同意对线性代数教学方法的吐槽,感同身受
@jerryyang7011
@jerryyang7011 7 ай бұрын
One of the well articulated tutorials with deep yet unique insights that spans across multiple related papers - thank you 王木头.
@allen-lee
@allen-lee 6 ай бұрын
感谢博主细致专业的讲解,这个视频值得多刷好多遍了
@ethany45
@ethany45 2 ай бұрын
思路太干爽了,视角特别清晰,感谢分享
@孙晓健
@孙晓健 9 ай бұрын
谢谢老师,讲的非常好,可以感受到 老师的专业,用心,与付出。
@hahahaYL-h3x
@hahahaYL-h3x 5 ай бұрын
看完了。再次赞一下。通俗易懂,脉络清晰,深表感谢!
@fengbenming1819
@fengbenming1819 8 ай бұрын
这么好的视频,应该要点赞上去,让更多人受惠!
@missoonable7883
@missoonable7883 9 ай бұрын
感謝老師,講得很清楚很容易理解。在不同情景下用不同理解去看待矩陣相乘這種思考方式也很受用。平常總是習慣用同一種理解去看待不同問題,有時候反而走進了死衚衕。
@施永康-h5e
@施永康-h5e Ай бұрын
非常有帮助,感谢博主的视频
@JonHU-rg5vr
@JonHU-rg5vr 29 күн бұрын
非常感谢博主的讲解。已三连
@nanzhou2301
@nanzhou2301 5 ай бұрын
说的真好,作为一个ML工程师很惭愧,已关注。以后多听听您的分享见解。
@Murphy-e3r
@Murphy-e3r 9 ай бұрын
看到一個多小時,馬上興奮,謝謝分享辛苦付出
@尼欧-u5f
@尼欧-u5f 9 ай бұрын
讲得真好!!希望以后线性代数和几何的融合课程!!
@kenlu2014
@kenlu2014 9 ай бұрын
这个视频是在太经典了,多谢王木头分享!!!
@cppiodchen7304
@cppiodchen7304 8 ай бұрын
对线性代数的吐槽太有共鸣了
@cicerochen313
@cicerochen313 8 ай бұрын
真的很精彩,尤其是很多[為什麼]的解釋,很令人佩服!不過,行列的說法,和英文有點出入。行==column, 列==row。我們說火車是一列,而不是一行。因此,初聽時,有些困惑。看完這講,推薦繼續看 Umar Jamil [Transformer from Scratch],會更理解底層原理。
@simonrochester2559
@simonrochester2559 8 ай бұрын
早点统一吧。 zh.wikipedia.org/wiki/Topic:U3b8ags204w4rqvy
@svbc-km8sj
@svbc-km8sj 3 ай бұрын
行==column, 列==row 不会吧.
@chaunceywang6867
@chaunceywang6867 3 ай бұрын
行列式点过程在推荐算法多样性中有应用
@3a146
@3a146 5 ай бұрын
行列式的理论意义主要是作为矩阵到实数的同态, 这样在代数意义下有一个可以进行分析的基础. 在抽象代数的语境里考虑, 就可以开始问, 为什么矩阵的相乘操作不交换, 然后你就可以去试矩阵的各种性质, 也就是关于“数”的“学”, 至于学出来的结果, 是几何性质. 这估计是苏联人写教材的时候的想法. 不过时代早变了, 几何结构也可以是直接的数, 拿来学.
@villas0000
@villas0000 3 күн бұрын
10:55 空間變換的概念 good!
@thomasyang7523
@thomasyang7523 9 ай бұрын
我就是一开始行列式,然后天天就算行列式的结果。直到上次看了某个讲解线性代数的视频后才知道行列式(Determinant)的几何意义是向量的面积或者体积,用于表示更加底层的矩阵信息
@flyisland2009
@flyisland2009 6 ай бұрын
最好的Transformer解释!
@guzhengwu
@guzhengwu Ай бұрын
挺棒的,继续更!
@eve2533
@eve2533 9 ай бұрын
铁粉支持
@pogenonexist
@pogenonexist 8 ай бұрын
实在是讲的太好了!讲attention原理比1blue3brown讲的还好
@kevinjyh
@kevinjyh 2 ай бұрын
非常贊同!我也是從3Blue1Brown一路看過來的,但還是王木頭這影片講到我心題裏了、也挑掉了卡在我牙縫裏的肉條了,雖然看了三遍才理解內容,但真有熱天喝涼水的爽感!也佩服王大的知識圖譜之完整。
@PoolsharkTang
@PoolsharkTang 9 ай бұрын
楼主说的有道理,确实线性代数课本的知识顺序应该重新编排一下。行列式这个东西,其实是后面矩阵求逆的时候有用。但是上来就学行列式,好多人都被行列式复杂的计算直接吓到了,3x3的行列式就得且在纸上算一会了。这要是拿给美国人,算数能力不行,直接全军覆没,嘿嘿
@AZ-hj8ym
@AZ-hj8ym 9 ай бұрын
55:51是不错的观察,这么说还能增加更多变换
@terryliu3635
@terryliu3635 7 ай бұрын
Thanks for the excellent explanation on the topic!!
@yoshiyuki1732ify
@yoshiyuki1732ify 8 ай бұрын
木头,有时间讲一下广义线性模型么。比较疑惑最后层激活函数的必要性的概率解释有些多余。比如说变形的tanh也可以做二分类,但是tanh并不一定对应指数族的伯努利分布,似乎有其他的族可以建模伯努利。
@jamesmina7258
@jamesmina7258 7 ай бұрын
感谢木头老师,受益匪浅。
@enochx7964
@enochx7964 6 ай бұрын
谢谢!讲的太好了。解了很久的困惑!
@bingdiexu
@bingdiexu 6 ай бұрын
感谢 太棒了 虽然我没有完全理解 我明天再详细多看几遍
@廖哲緯-w8e
@廖哲緯-w8e 9 ай бұрын
雖然我還沒看,但是先感謝老師。
@九思-w5t
@九思-w5t Ай бұрын
想哭,几何代数高数这么多年终于被你串起来讲通了,想哭
@lindama2151
@lindama2151 8 ай бұрын
讲的好! 期待线性代数和几何的融合课程!
@ZhaozhiKong
@ZhaozhiKong 8 ай бұрын
干货满满,比大学里的老师讲得好
@judyy2006
@judyy2006 2 ай бұрын
木头老师, 请抽空讲Dusion model 的背后算法。谢谢!
@haemonyang6278
@haemonyang6278 8 ай бұрын
期待線性代數的視頻
@charleswang412
@charleswang412 9 ай бұрын
谢谢老师!讲解的非常好
@dianshili2294
@dianshili2294 5 ай бұрын
非常深入浅出!
@johnding2010
@johnding2010 3 ай бұрын
14:37 矩阵表达式是不是错了, 第一部分是不是[a, b]
@kl5855
@kl5855 8 ай бұрын
谢谢老师,讲的真实深入浅出啊,能出一集关于 RNN 相关的视频么?
@PRED122
@PRED122 5 ай бұрын
看到一半的时候插一嘴。王木头说机器翻译需要统一潜空间,要将两个语言的潜空间给统一起来,就能完成机器翻译。这让我联想到多模态模型的编码器,这玩意的目的也是要将语言的潜空间和图像的潜空间联系起来。所以说在现在的大模型任务里,很多东西是在做潜空间的统一
@zhuyongchao6441
@zhuyongchao6441 13 сағат бұрын
讲的太好了
@無柏穎
@無柏穎 23 күн бұрын
Transformer主要有分成狂派以及博派
@jerryhuang3565
@jerryhuang3565 4 ай бұрын
如果是近期如llama 3.1以後的,0:29 這張圖已經有省略的一些部分
@孙晓健
@孙晓健 9 ай бұрын
最后mask multi-head attention 的mask 没有理解,推理的时候是一个一个推理的,未来的单词还没有生成,如何能影响到当前正在推理的过程呢?
@ypc2746
@ypc2746 8 ай бұрын
同意 18''59 对国内线性代数的吐槽, 以前上学时候学的同济版的线性代数 和后来看的Gilbert Strang的线性代数, 完全不是一个东西。
@wffett
@wffett 9 ай бұрын
终于更新了
@sciab3674
@sciab3674 4 ай бұрын
有个好老师多重要,跟我一样学了白学😂 现在才知道这么有用
@zh08720949
@zh08720949 7 ай бұрын
王老师有没有课件
@guiguangruanjian
@guiguangruanjian 6 ай бұрын
谢谢老师,讲的很好果断关注
@diegosun2052
@diegosun2052 8 ай бұрын
我理解的Q与K相乘与图神经网络中的邻接矩阵形似,但还是没明白为什么要用Q、K、V三个矩阵
@布雷-z7h
@布雷-z7h 7 ай бұрын
清晰易懂
@yoshiyuki1732ify
@yoshiyuki1732ify 8 ай бұрын
注意力和cnn的矩阵乘有本质区别。矩阵乘是没法实现输入的多项式操作的,而是piecewise逼近。而attention本身kqv引入了多项式。虽然多项式这个说法不准确。
@DYFC-z3j
@DYFC-z3j 3 ай бұрын
Quantum Volume (QV) Record Revisited: 2^119 油管搜索
@azurewang
@azurewang 8 ай бұрын
如果你当教育部主任,中国的未来就有救了。说真的,一开始说线性代数说的太好了!在描述空间中找了非常棒的两个直觉角度!
@ricolxwz
@ricolxwz Ай бұрын
讲的很好
@allanyang4458
@allanyang4458 9 ай бұрын
看完了~真的很棒,把Transformer的精髓講的很清楚,請問你是計算機專業或是念數學的嗎?
@ruru9433
@ruru9433 8 ай бұрын
請問這些內容有ppt能下載嗎?因為方便上班時閱讀
@Sea-m-08
@Sea-m-08 9 ай бұрын
每一期都是精华版
@偉業-w4k
@偉業-w4k 3 ай бұрын
本人大學是數學系,數學系的線性代數教法就是這樣,教你線性轉換跟空間轉換的概念是什麼。 但這種教法有一個大缺點,就是對於大一新生來說太抽象,因為你在教這些前會有太多延伸問題,例如在教空間轉換之前還要先定義什麼是向量空間、什麼是坐標系、向量空間的規則等。 我相信這些對於工科的人其實不一定是必備相關知識。
@lwangairs
@lwangairs Ай бұрын
我有一个问题,就是坐标系的变换矩阵应该是左乘的那个,而这个视频说的是右边?还是我疏忽了啥?
@DYFC-z3j
@DYFC-z3j 3 ай бұрын
量子体积目前世界记录刚刚被刷新,2^119这个是几个惊人的数字
@hongjunbai6876
@hongjunbai6876 8 ай бұрын
讲得好,谢谢!
@yangliu5049
@yangliu5049 9 ай бұрын
我大学的线代要是你教就好了,20年弯路呀,欲哭无泪
@ims3312
@ims3312 9 ай бұрын
王老师能出一期KNN吗
@chrisyzz
@chrisyzz 6 ай бұрын
谢谢!真的很厉害!
@liyusen6358
@liyusen6358 9 ай бұрын
wood 博士,您用的示意图能发一下吗
@buliaoqing
@buliaoqing 8 ай бұрын
卖力气!赞一个
@LUIPT888
@LUIPT888 9 ай бұрын
終於有人和我的想法一樣
@kimberlyjill
@kimberlyjill 9 ай бұрын
不是很懂,本文科生😭
@oliverwang1560
@oliverwang1560 6 ай бұрын
王木头辛苦了
@文哥-i4e
@文哥-i4e 7 ай бұрын
如果矩阵不是满秩的话,那可就不是一对一的啰😜
@yoyooversea
@yoyooversea 6 ай бұрын
11:33 精彩
@dingjiesu5354
@dingjiesu5354 9 ай бұрын
非常优秀的讲解。关于为什么要Wk Wq两个矩阵的问题,还有一个从更容易做optimization 的角度的解释。下面这个视频45分一个同学提出了和题主一样的问题kzbin.info/www/bejne/jKSbZol5r9qaZqssi=lLIJmjhb_C5lTry1
@eggdog
@eggdog 5 ай бұрын
怎麼過這麼久還沒有新影片😭😭
@徐聖旂
@徐聖旂 9 ай бұрын
終於想起了頻道帳號的密碼。
@zhehan2724
@zhehan2724 3 ай бұрын
不太理解为什么对称矩阵变换会保证内积不变。
@zhuyongchao6441
@zhuyongchao6441 13 сағат бұрын
一下解开了好多疑问
@xumiss.3441
@xumiss.3441 5 ай бұрын
大佬,太强了
@TowkbsgsusbMwpwksbuedn
@TowkbsgsusbMwpwksbuedn 8 ай бұрын
讲的很不错
@mixshare
@mixshare 9 ай бұрын
哈哈 行列式这个真的是干扰😂
@advancelll3521
@advancelll3521 5 ай бұрын
线性代数应该这样学第三版
@hys-v6m
@hys-v6m 5 ай бұрын
感觉位置编码那部分好难😮‍💨
Гениальное изобретение из обычного стаканчика!
00:31
Лютая физика | Олимпиадная физика
Рет қаралды 4,8 МЛН
学习分享一年,对神经网络的理解全都在这40分钟里了
43:18
Transformer论文逐段精读
1:27:05
跟李沐学AI
Рет қаралды 434 М.
比《人類大歷史》更重要的書:《連結》最完整解析,原來我們對 AI 的看法錯了!?
24:54
張修修的不正常人生 Shosho's Abnormal Life
Рет қаралды 312 М.
Visualizing transformers and attention | Talk for TNG Big Tech Day '24
57:45