【機器學習2021】自注意力機制 (Self-attention) (上)

  Рет қаралды 236,678

Hung-yi Lee

Hung-yi Lee

Күн бұрын

Пікірлер: 100
@RobinHappyLife
@RobinHappyLife 3 жыл бұрын
李宏毅教授的团队,让大家极大地节省了时间,节省了生命损耗。堪称救苦救难,胜造七级浮屠 :)
@li-pingho1441
@li-pingho1441 2 жыл бұрын
同意 拯救大家的人生
@willy7703
@willy7703 Жыл бұрын
雖然您講得很誇張 但我很認同是真的
@zhewang1294
@zhewang1294 3 жыл бұрын
李老师好!我是来自大陆的您的粉丝~ 深度学习的课我和我身边的人基本都在跟随于您,您的课在中文圈里绝对是顶级的,现在来法国读博啦~~ 我会继续跟随下去! 祝老师身体健康~~
@a12050429
@a12050429 Жыл бұрын
只有我看成黑暗大陸嗎?
@joy79419
@joy79419 Жыл бұрын
最頂的
@汪浩-x2o
@汪浩-x2o Жыл бұрын
不碰点政治都不会做人了是吧,认认真真讨论技术不好吗@@a12050429
@sendohzhang110
@sendohzhang110 10 ай бұрын
@@a12050429 not funny here,focus on deep learning plz
@michaelwang66
@michaelwang66 10 ай бұрын
难绷@@a12050429
@吩咐豆腐干
@吩咐豆腐干 3 жыл бұрын
李老师好!我也是来自大陆的您的粉丝~ 您绝对是顶级的,我会继续跟随下去! 祝老师身体健康~~
@LifeKiT-i
@LifeKiT-i Жыл бұрын
李老師你好! 我是香港大學computer science的學生, 我覺得你教得特別清晰, 遠比我港大的老師要好...請你保持upload影片給我們學習!!
@XXZSaikou
@XXZSaikou 10 ай бұрын
哈哈哈我也是 HKU CS 学生
@lilianaaa98
@lilianaaa98 8 ай бұрын
看李老师的视频看出了追番的快感❤❤
@liangzhu6074
@liangzhu6074 3 жыл бұрын
刚开始学,李老师的课程是我能接触到的最简单最清晰的了
@yongliangteh7957
@yongliangteh7957 Жыл бұрын
Watched quite a few videos on self-attention and this is hands-down the best explanation I have seen. World-class professor on ML without a doubt.
@derek142
@derek142 8 ай бұрын
感谢李老师的分享,逻辑清晰,表达流畅,受益匪浅,祝您一切顺利。
@pythmalion2080
@pythmalion2080 3 жыл бұрын
李老师讲的机器学习真的很有美感, 之前在论文中死活看不明白的东西一下子就搞懂了
@梵天神器
@梵天神器 Жыл бұрын
听完李老师的课真的有一种醍醐灌顶的感觉,强烈推荐任何对机器学习/深度学习感兴趣的人听一下李老师的课。
@aili8573
@aili8573 Жыл бұрын
您简直就是我的神!!!呜呜呜,感到哭了。希望老师越来越好
@客家饒舌執牛耳
@客家饒舌執牛耳 3 жыл бұрын
台灣最帥男人 只服李教授
@CatnissCullen
@CatnissCullen Жыл бұрын
老师好!我是来自大陆的粉丝!现在本科大二然后在学校做科研实习,是导师推荐我看您的视频的,真的好爱看讲得好清晰易懂!很感激您的视频带我入门机器学习和深度学习!!
@sumowll8903
@sumowll8903 Жыл бұрын
李老师讲的太有条理了! 听了好多英文的课程都没有弄明白的问题 一下子就清晰了。 来自美国的华人粉丝
@martinkuhk
@martinkuhk 3 жыл бұрын
The best explanation on the attention mechanism I've ever watched so far. Superb.
@fdm-foredemo2598
@fdm-foredemo2598 9 ай бұрын
Hi Prof Lee, I am a fans from Singapore. Thanks so much for your lectures!
@southfox2012
@southfox2012 5 ай бұрын
Great job ! 听了好几个视频了,这个最棒.
@deskeyi
@deskeyi Жыл бұрын
這絕對是我見過最棒的deep learning課,不限於中文,用最通俗的語言講明白看起來很複雜的東西😂其實只看原paper沒有大神講解,即使是專業人士也會比較迷茫,k、v那裡我看到這裡才明白那個點乘具體的位置😅之前自己腦補得不對
@zerojuhao
@zerojuhao Жыл бұрын
非常好的课程,使我的大脑高兴,爱来自丹麦😃
@xinxinwang3700
@xinxinwang3700 3 жыл бұрын
精彩!太喜欢您的课了
@xinxinwang3700
@xinxinwang3700 2 жыл бұрын
我又来复习了
@电热毯
@电热毯 Жыл бұрын
非常好课程,爱来自日本
@DaviPeng
@DaviPeng 10 ай бұрын
It is incredibly crystal clear for the layman ! Many thanks !
@jayedision1889
@jayedision1889 Жыл бұрын
受益匪浅,非常感谢李老师
@hb.z7992
@hb.z7992 3 жыл бұрын
讲的真好,自己懂的深入才能讲的浅出。
@li-pingho1441
@li-pingho1441 2 жыл бұрын
老師講的太好了....全網第一
@zhouoxosmodefr4061
@zhouoxosmodefr4061 Жыл бұрын
老师说的真的好!人在慕尼黑,拯救我的endterm哈哈哈
@vivisol-qi
@vivisol-qi 2 ай бұрын
这里之所以要用softmax而不用其他激活函数,是因为最好使输入元素之间各个关联度之和为1,这样才有意义。
@zenios-br9en
@zenios-br9en 5 ай бұрын
感谢李宏毅老师
@pengdu7233
@pengdu7233 Жыл бұрын
非常感谢。直接啃论文太痛苦了
@lsycxyj
@lsycxyj Жыл бұрын
有大神能解答一下吗: 1. 为什么alpha需要自己与自己相乘? 2. 为什么向量要分q和k,而不能是只有k,alpha由k相乘所得? 3. 为什么b要是乘另一个v所得,而不能是直接通过某些方式合并alpha所得?
@difeitang1823
@difeitang1823 2 жыл бұрын
我永远喜欢李宏毅老师
@richard5018
@richard5018 3 жыл бұрын
字幕打成phonetic的部分李教授應該是指phoneme喔
@ruanjiayang
@ruanjiayang 3 жыл бұрын
老师念dot product的时候太可爱了。。。
@姜博怀
@姜博怀 3 жыл бұрын
老师您好,想问下attention 的 Wq Wv Wk 是共享权重么, 因为看到tf bert 原代码 Q,K,V使用的dense 而不是conv
@niceonea4343
@niceonea4343 Жыл бұрын
为什么不用原始输入向量a_1,而要使用新的v来计算最后的结果
@halilozcan8
@halilozcan8 Жыл бұрын
any chance to present in english , seems great content
@FlashK246
@FlashK246 2 жыл бұрын
讲得太好了!赞赞赞!
@tonygan1132
@tonygan1132 6 ай бұрын
硬Train一发神教教徒,支持一下
@baobaolong423
@baobaolong423 2 жыл бұрын
常常来温故而知新。
@jinli1835
@jinli1835 6 ай бұрын
想看作业的内容
@flisztf5333
@flisztf5333 2 жыл бұрын
请问李老师,如果权重都是共享的,那么self attention是如何做pos tagging的?因为权重共享,相同的输入应该就是相同的输出了呀,所以做pos tagging是要加窗口结合上下文作为输入吗?
@feifeizhang7757
@feifeizhang7757 Жыл бұрын
太厉害了!老师
@ierjgtmrels
@ierjgtmrels 2 жыл бұрын
首先感謝李老師,這是我見過對attention的最好的教學。想請教一個問題,就是為什麼a1 要算q1 ,k1,然後計算自己的attention score。q1 k1的物理意義是什麼呢?
@ajnik9081
@ajnik9081 2 жыл бұрын
我自己浅显的理解:QKV分别代表“查询标准”,“待查询指标”,和“本质”。Q是a去查询的时候,带着的查询标准。K是任何单字被查询的时候,展现出来的“待查询指标”。V是每个单字提取出来的本质。 我打个单身汉找对象的比方吧。假设一个人要找对象,他一共有十个潜在的人选(包括他自己,这里请忽略性别)。Q代表他的择偶标准(比如说外形7分,年收入100万,年龄25岁以下,房子豪华)。K代表一个目标对象表现出来的指标(比如努力打扮让外形变成了6分,装成年收入60万,显得很年轻26岁,房子装修得还不错)。V代表一个目标对象本质的指标(比如这个人本质是个外形4分的人,年收入实际只有40万,实际年龄32岁)。那么Q和K相乘,实际上就是“择偶标准”和“表现出来的样子”里的匹配程度。然后通过这个匹配程度,和每个对象的本质数值做一个加权求和,出来的结果就是找到的对象最后所包含的数值。 这里有两个点可以注意一下:第一个就是你未必最喜欢你自己。你跟自己的QK相似度未必是最高的。第二就是QKV本质其实可以是一样的。比如如果在一个平行世界里,人们的择偶标准和他表现出来的样子以及他的本质完全一致,那么QKV没有必要存在。QKV存在的意义就是模拟这类“我想要的”和“每个人表现出来的”以及“每个人实际的”样子是不一样的情况。但这里也有一个假设,就是本质上QKV乘以的都是同一个东西,所以同一个词的q,k,v不会差得太离谱,类比到相亲,你可以理解为一个外形3分的人很难装成外形9分,一个年收入10万的人很难装成年收入500万。
@mgvk6005
@mgvk6005 Жыл бұрын
我的理解是这样的,Q代表你在浏览器中输入的问题,K代表浏览器返回的不同网页(回答),attention score由Q和K计算得到,代表我们对每个网页的质量判断,判断我们觉得哪个网页应该更容易找到问题的解答。最后V代表每个网页中的内容,之后由attention score和V计算得到b,代表我们最后得到最终答案
@baoyanguo2017
@baoyanguo2017 3 жыл бұрын
李老师你好,我在您的网站上看到有2020年春季的课程,但是只找到了相关的作业和PPT,请问哪里有相关的视频呢?我在 KZbin 上面并没有找到 2020年春季的视频
@Teng_XD
@Teng_XD 3 жыл бұрын
在那里可以看助教的程序?
@HungyiLeeNTU
@HungyiLeeNTU 3 жыл бұрын
都在這裡了: speech.ee.ntu.edu.tw/~hylee/ml/2021-spring.html
@Recordingization
@Recordingization Жыл бұрын
请问老师这里面的a2的key是什么,怎么求出来的?视频在24:28的位置.
@garfieldlavi
@garfieldlavi Жыл бұрын
請問alpha' 跟 W的相乘也是element wise的相乘嗎?
@HebrewSongPod
@HebrewSongPod Жыл бұрын
想請問老師,作業的內容有公開嗎?
@leohsusolid
@leohsusolid 3 жыл бұрын
想請問老師25:30 自己與自己的關聯性一定是1嗎?
@bnglr
@bnglr 2 жыл бұрын
这是2021年录制的还是之前的视频?
@leohsusolid
@leohsusolid 3 жыл бұрын
想在請問老師27:16 的transform Wv跟前面的Wk要怎麼決定呢?謝謝~
@EduanHa
@EduanHa 3 жыл бұрын
也有同樣問題,是random initial嗎?
@DED_Search
@DED_Search 2 жыл бұрын
@jiangwuheng
@jiangwuheng Жыл бұрын
Trainable parameter.
@Recordingization
@Recordingization Жыл бұрын
wk和wq都是神经网络里的参数吗?
@taodjango5877
@taodjango5877 Жыл бұрын
讲得好
@張家睿-w5w
@張家睿-w5w Жыл бұрын
不知道哪邊有作業可以讓我練習…
@YanVictor-ex4ug
@YanVictor-ex4ug 14 күн бұрын
我也在找...张前辈有可以分享的资源吗..万分感谢
@EgD996
@EgD996 3 жыл бұрын
word embedding: kzbin.info/www/bejne/jmizeWaEqr6KZrM (普通话)
@luery
@luery 3 жыл бұрын
谢谢老师
@senx8758
@senx8758 Жыл бұрын
比看paper 容易多了。 谢谢
@ilovelife-m4t
@ilovelife-m4t 2 жыл бұрын
听完我怀疑我是不是在学机器学习,听完感觉好简单
@HungyiLeeNTU
@HungyiLeeNTU 2 жыл бұрын
覺得簡單很好啊
@binchaopeng2123
@binchaopeng2123 3 жыл бұрын
哪里可以看您的线上直播课呢?
@陈伟杰-u1o
@陈伟杰-u1o 3 жыл бұрын
(下)还没有update吗?
@HungyiLeeNTU
@HungyiLeeNTU 3 жыл бұрын
還沒有 update ,而且本週我沒有上課,所以下次 update 的時間是 3/26
@jiashupan9181
@jiashupan9181 3 жыл бұрын
请问Prof. Wu的影片会上传吗?
@hanwang4779
@hanwang4779 3 жыл бұрын
同问,谢谢!
@HungyiLeeNTU
@HungyiLeeNTU 3 жыл бұрын
@@hanwang4779 不好意思,我這邊不會在 YT 上公開 Prof. Wu 的影片
@hanwang4779
@hanwang4779 3 жыл бұрын
@@HungyiLeeNTU 很可惜了,不过还是特别感谢李老师的精彩课程!
@binghongli
@binghongli 10 ай бұрын
把一些模糊地帶用古聖先賢帶過,這個說法不太好。
@zongtaowang7840
@zongtaowang7840 3 жыл бұрын
李老师,Wq,Wk,Wv应该不是共享的吧,是不是讲错了?
@HungyiLeeNTU
@HungyiLeeNTU 3 жыл бұрын
請問你的問題是來自影片中的哪一個段落呢?
@zongtaowang7840
@zongtaowang7840 3 жыл бұрын
@@HungyiLeeNTU 比如:24:01的ppt,看上去不同的a_i都是和相同的W^q相乘,也就是W^q是共享的,这个是对的吗?为什么要共享,而不是比如W^{q}_{i},每个a_i对应一个不同的W呢?
@HungyiLeeNTU
@HungyiLeeNTU 3 жыл бұрын
@@zongtaowang7840 是共享的沒錯喔
@zongtaowang7840
@zongtaowang7840 3 жыл бұрын
@@HungyiLeeNTU 谢谢您的回复,但是为什么要共享呢?有什么目的吗?
@user-xd3yp1kv4y
@user-xd3yp1kv4y 3 жыл бұрын
您好, 如果: "W^{q}_{i},每个a_i对应一个不同的W", 我认为您可以将 "非共享W" 视作一个共享的 W^q 生成了 query, 并分别于每个query注入与 i 关联的位置信息 但 i 的位置信息可以透过 Positional Encoding 提供就好 而且 "非共享W" 会导致你的 a 长度必须固定, 那么整个数学式写下来就是等效一个"对 a序列 的全连接层FCN"了
@btc1000k
@btc1000k Жыл бұрын
老师,你是留学党的精神粮食😂
@gjlmotea
@gjlmotea 4 ай бұрын
神串留
@beizhou2488
@beizhou2488 3 жыл бұрын
李老师,现在的RNN基本都被Self-Attention取代了吗?
@窃格电动车养你
@窃格电动车养你 3 жыл бұрын
kzbin.info/www/bejne/iWOaoXuBd6qjaZI 这个视频将lstm与transformer进行了解析,最终的结论是transformer已经非常优秀了,但有些情况下仍然还是首选lstm,可以参考一下,不过没有字幕
@kevin80934
@kevin80934 4 ай бұрын
2:39
@FengLi-x6k
@FengLi-x6k Жыл бұрын
mark
@zhaungjiexuan0854
@zhaungjiexuan0854 Жыл бұрын
666
@CornuDev
@CornuDev 7 ай бұрын
@left_right_men
@left_right_men 3 жыл бұрын
台灣最帥男人 只服李教授
【機器學習2021】自注意力機制 (Self-attention) (下)
45:58
【機器學習2021】Transformer (下)
1:00:34
Hung-yi Lee
Рет қаралды 161 М.
快乐总是短暂的!😂 #搞笑夫妻 #爱美食爱生活 #搞笑达人
00:14
朱大帅and依美姐
Рет қаралды 9 МЛН
Trapped by the Machine, Saved by Kind Strangers! #shorts
00:21
Fabiosa Best Lifehacks
Рет қаралды 40 МЛН
Perfect Pitch Challenge? Easy! 🎤😎| Free Fire Official
00:13
Garena Free Fire Global
Рет қаралды 93 МЛН
The math behind Attention: Keys, Queries, and Values matrices
36:16
Serrano.Academy
Рет қаралды 260 М.
AI時代,你跟上了嗎?|李宏毅|人文講堂|完整版 20231209
24:01
ML Lecture 21-1: Recurrent Neural Network (Part I)
49:00
Hung-yi Lee
Рет қаралды 239 М.
Let's build GPT: from scratch, in code, spelled out.
1:56:20
Andrej Karpathy
Рет қаралды 4,8 МЛН
How Deep Neural Networks Work - Full Course for Beginners
3:50:57
freeCodeCamp.org
Рет қаралды 4,4 МЛН
【機器學習2021】Transformer (上)
32:48
Hung-yi Lee
Рет қаралды 213 М.
Attention in transformers, visually explained | DL6
26:10
3Blue1Brown
Рет қаралды 1,8 МЛН