【機器學習2021】自注意力機制 (Self-attention) (上)

Рет қаралды 251,025

Hung-yi Lee

Күн бұрын

ML2021 week3 3/12 Self-attention
slides: speech.ee.ntu....

Пікірлер: 102

@RobinHappyLife 3 жыл бұрын

李宏毅教授的团队，让大家极大地节省了时间，节省了生命损耗。堪称救苦救难，胜造七级浮屠：）

@li-pingho1441 2 жыл бұрын

同意拯救大家的人生

@willy7703 2 жыл бұрын

雖然您講得很誇張但我很認同是真的

@zhewang1294 3 жыл бұрын

李老师好！我是来自大陆的您的粉丝~ 深度学习的课我和我身边的人基本都在跟随于您，您的课在中文圈里绝对是顶级的，现在来法国读博啦~~ 我会继续跟随下去！祝老师身体健康~~

@a12050429 Жыл бұрын

只有我看成黑暗大陸嗎？

@joy79419 Жыл бұрын

最頂的

@汪浩-x2o Жыл бұрын

不碰点政治都不会做人了是吧，认认真真讨论技术不好吗@@a12050429

@sendohzhang110 Жыл бұрын

@@a12050429 not funny here，focus on deep learning plz

@michaelwang66 Жыл бұрын

难绷@@a12050429

@吩咐豆腐干 3 жыл бұрын

李老师好！我也是来自大陆的您的粉丝~ 您绝对是顶级的，我会继续跟随下去！祝老师身体健康~~

@LifeKiT-i Жыл бұрын

李老師你好! 我是香港大學computer science的學生, 我覺得你教得特別清晰, 遠比我港大的老師要好...請你保持upload影片給我們學習!!

@XXZSaikou Жыл бұрын

哈哈哈我也是 HKU CS 学生

@Ahwu_AIClass Ай бұрын

🎯 Key points for quick navigation: 00:01 *🧠 Self-Attention解決變長輸入挑戰* - 簡介Self-Attention架構，解決輸入為變長向量的問題，適用於語言和序列資料處理。 - 預測場景從固定長度向量轉為序列處理，輸入向量數量和大小可能不同。 - 例子：文字處理中的句子長度變化。 02:06 *🧩 Word Embedding介紹* - 簡介Word Embedding，解決One-Hot Encoding無語義資訊的問題。 - 提供語義向量，讓詞彙相似性更明顯，如動物和動詞分群。 - 例子：如何從向量分布觀察語義關係。 03:08 *🎵 聲音訊號與序列表示* - 將聲音訊號切分為小窗口，每段描述為向量。 - 描述方式：每秒鐘音訊分成100個Frame，對應成序列。 - 古聖先賢的參數調整方式提升描述效果。 05:15 *🌐 Graph作為向量集合* - Graph應用於社交網路與分子模型。 - 節點向量化表示個體特性，關係定義為邊。 - Graph用於藥物發現及其他研究領域，特徵由模型輸入處理。 06:50 *📊 輸入與輸出對應關係的類型* - 第一類型：輸入與輸出數目相同，例子包括POS Tagging和語音辨識的簡化任務。 - 第二類型：整個序列僅輸出一個Label，如情感分析。 - 將不同場景輸出需求分類解釋，便於理解應用範圍。 11:24 *🔄 Sequence-to-Sequence 任務介紹* - 介紹 Sequence-to-Sequence 的任務類型，如翻譯及語音辨識， - 簡述作業五的內容，未來會進一步講解相關應用。 11:53 *🏷️ Sequence Labeling 概念* - 解釋 Sequence Labeling 任務，需為每個向量分配標籤， - 使用 Fully-Connected Network 的局限性，如無法考慮上下文資訊。 13:27 *🌐 Context Window 的應用* - 引入前後窗口的概念，改善 Fully-Connected Network 的效果， - 說明作業二的處理方法，看多個 frame 判斷音標。 15:01 *🚧 長序列問題與局限性* - 探討用大窗口處理整個序列的挑戰，如計算量及過擬合風險， - 強調需更高效的方法考慮完整序列資訊。 16:04 *✨ Self-Attention 技術簡介* - Self-Attention 能同時考慮整個序列資訊， - 輸入與輸出向量數量一致，考慮上下文後生成結果。 17:33 *🤖 Self-Attention 與 Transformer* - Self-Attention 可多次使用，結合 Fully-Connected Network 增強效果， - 提及 Transformer 的架構及其關鍵角色。 19:02 *🔍 Self-Attention 計算過程* - Self-Attention 將序列向量生成新向量，考慮整體關聯性， - 解釋向量之間關聯的計算方式，為後續分類或回歸提供依據。 23:08 *🔍 Self-Attention 的關聯性計算* - 解釋如何利用向量計算關聯性，特別是使用 Query 和 Key 的方式， - 提到用內積計算 Query 和 Key 的關聯性，得出 Attention Score（注意力分數）， - 提到每個向量間都需要進行關聯性計算，包括與自身的計算。 25:42 *📊 使用 Soft-Max 進行歸一化* - 說明將 Attention Score 通過 Soft-Max 進行歸一化以得到 α'， - 提到 Soft-Max 並非唯一選擇，可以使用其他激活函數（如 ReLU），並鼓勵實驗， - 強調 Soft-Max 是最常見的選擇，但根據不同情境可以嘗試優化。 27:18 *✨ 抽取重要資訊* - 說明如何根據 α' 提取序列中重要資訊， - 解釋將每個向量乘上權重矩陣 Wv 生成新的向量，再依據 α' 加權求和， - 強調利用 Attention 分數對資訊進行篩選，突出相關性最高的部分。 Made with HARPA AI

@liangzhu6074 3 жыл бұрын

刚开始学，李老师的课程是我能接触到的最简单最清晰的了

@lilianaaa98 11 ай бұрын

看李老师的视频看出了追番的快感❤❤

@客家饒舌執牛耳 3 жыл бұрын

台灣最帥男人只服李教授

@yongliangteh7957 Жыл бұрын

Watched quite a few videos on self-attention and this is hands-down the best explanation I have seen. World-class professor on ML without a doubt.

@pythmalion2080 3 жыл бұрын

李老师讲的机器学习真的很有美感, 之前在论文中死活看不明白的东西一下子就搞懂了

@梵天神器 2 жыл бұрын

听完李老师的课真的有一种醍醐灌顶的感觉，强烈推荐任何对机器学习/深度学习感兴趣的人听一下李老师的课。

@aili8573 Жыл бұрын

您简直就是我的神！！！呜呜呜，感到哭了。希望老师越来越好

@CatnissCullen Жыл бұрын

老师好！我是来自大陆的粉丝！现在本科大二然后在学校做科研实习，是导师推荐我看您的视频的，真的好爱看讲得好清晰易懂！很感激您的视频带我入门机器学习和深度学习！！

@derek142 11 ай бұрын

感谢李老师的分享，逻辑清晰，表达流畅，受益匪浅，祝您一切顺利。

@sumowll8903 Жыл бұрын

李老师讲的太有条理了！听了好多英文的课程都没有弄明白的问题一下子就清晰了。来自美国的华人粉丝

@martinkuhk 3 жыл бұрын

The best explanation on the attention mechanism I've ever watched so far. Superb.

@fdm-foredemo2598 Жыл бұрын

Hi Prof Lee, I am a fans from Singapore. Thanks so much for your lectures!

@deskeyi Жыл бұрын

這絕對是我見過最棒的deep learning課，不限於中文，用最通俗的語言講明白看起來很複雜的東西😂其實只看原paper沒有大神講解，即使是專業人士也會比較迷茫，k、v那裡我看到這裡才明白那個點乘具體的位置😅之前自己腦補得不對

@southfox2012 7 ай бұрын

Great job ! 听了好几个视频了，这个最棒.

@zerojuhao Жыл бұрын

非常好的课程，使我的大脑高兴，爱来自丹麦😃

@电热毯 2 жыл бұрын

非常好课程，爱来自日本

@vivisol-qi 5 ай бұрын

这里之所以要用softmax而不用其他激活函数，是因为最好使输入元素之间各个关联度之和为1，这样才有意义。

@xinxinwang3700 3 жыл бұрын

精彩！太喜欢您的课了

@xinxinwang3700 2 жыл бұрын

我又来复习了

@li-pingho1441 2 жыл бұрын

老師講的太好了....全網第一

@DaviPeng Жыл бұрын

It is incredibly crystal clear for the layman ! Many thanks !

@jayedision1889 2 жыл бұрын

受益匪浅，非常感谢李老师

@hb.z7992 3 жыл бұрын

讲的真好，自己懂的深入才能讲的浅出。

@zhouoxosmodefr4061 2 жыл бұрын

老师说的真的好！人在慕尼黑，拯救我的endterm哈哈哈

@zenios-br9en 8 ай бұрын

感谢李宏毅老师

@FlashK246 2 жыл бұрын

讲得太好了！赞赞赞！

@feifeizhang7757 Жыл бұрын

太厉害了！老师

@tonygan1132 9 ай бұрын

硬Train一发神教教徒，支持一下

@lsycxyj Жыл бұрын

有大神能解答一下吗： 1. 为什么alpha需要自己与自己相乘？ 2. 为什么向量要分q和k，而不能是只有k，alpha由k相乘所得？ 3. 为什么b要是乘另一个v所得，而不能是直接通过某些方式合并alpha所得？

@difeitang1823 2 жыл бұрын

我永远喜欢李宏毅老师

@pengdu7233 Жыл бұрын

非常感谢。直接啃论文太痛苦了

@Recordingization Жыл бұрын

请问老师这里面的a2的key是什么,怎么求出来的?视频在24:28的位置.

@baobaolong423 2 жыл бұрын

常常来温故而知新。

@ruanjiayang 3 жыл бұрын

老师念dot product的时候太可爱了。。。

@richard5018 3 жыл бұрын

字幕打成phonetic的部分李教授應該是指phoneme喔

@姜博怀 3 жыл бұрын

老师您好，想问下attention 的 Wq Wv Wk 是共享权重么，因为看到tf bert 原代码 Q，K，V使用的dense 而不是conv

@taodjango5877 2 жыл бұрын

讲得好

@HebrewSongPod Жыл бұрын

想請問老師，作業的內容有公開嗎?

@halilozcan8 Жыл бұрын

any chance to present in english , seems great content

@leohsusolid 3 жыл бұрын

想在請問老師27:16 的transform Wv跟前面的Wk要怎麼決定呢？謝謝～

@EduanHa 3 жыл бұрын

也有同樣問題，是random initial嗎?

@DED_Search 3 жыл бұрын

对

@jiangwuheng Жыл бұрын

Trainable parameter.

@bnglr 2 жыл бұрын

这是2021年录制的还是之前的视频？

@leohsusolid 3 жыл бұрын

想請問老師25:30 自己與自己的關聯性一定是1嗎？

@flisztf5333 2 жыл бұрын

请问李老师，如果权重都是共享的，那么self attention是如何做pos tagging的？因为权重共享，相同的输入应该就是相同的输出了呀，所以做pos tagging是要加窗口结合上下文作为输入吗？

@luery 3 жыл бұрын

谢谢老师

@baoyanguo2017 3 жыл бұрын

李老师你好，我在您的网站上看到有2020年春季的课程，但是只找到了相关的作业和PPT，请问哪里有相关的视频呢？我在 KZbin 上面并没有找到 2020年春季的视频

@ierjgtmrels 2 жыл бұрын

首先感謝李老師，這是我見過對attention的最好的教學。想請教一個問題，就是為什麼a1 要算q1 ，k1，然後計算自己的attention score。q1 k1的物理意義是什麼呢？

@ajnik9081 2 жыл бұрын

我自己浅显的理解：QKV分别代表“查询标准”，“待查询指标”，和“本质”。Q是a去查询的时候，带着的查询标准。K是任何单字被查询的时候，展现出来的“待查询指标”。V是每个单字提取出来的本质。我打个单身汉找对象的比方吧。假设一个人要找对象，他一共有十个潜在的人选（包括他自己，这里请忽略性别）。Q代表他的择偶标准（比如说外形7分，年收入100万，年龄25岁以下，房子豪华）。K代表一个目标对象表现出来的指标（比如努力打扮让外形变成了6分，装成年收入60万，显得很年轻26岁，房子装修得还不错）。V代表一个目标对象本质的指标（比如这个人本质是个外形4分的人，年收入实际只有40万，实际年龄32岁）。那么Q和K相乘，实际上就是“择偶标准”和“表现出来的样子”里的匹配程度。然后通过这个匹配程度，和每个对象的本质数值做一个加权求和，出来的结果就是找到的对象最后所包含的数值。这里有两个点可以注意一下：第一个就是你未必最喜欢你自己。你跟自己的QK相似度未必是最高的。第二就是QKV本质其实可以是一样的。比如如果在一个平行世界里，人们的择偶标准和他表现出来的样子以及他的本质完全一致，那么QKV没有必要存在。QKV存在的意义就是模拟这类“我想要的”和“每个人表现出来的”以及“每个人实际的”样子是不一样的情况。但这里也有一个假设，就是本质上QKV乘以的都是同一个东西，所以同一个词的q,k,v不会差得太离谱，类比到相亲，你可以理解为一个外形3分的人很难装成外形9分，一个年收入10万的人很难装成年收入500万。

@mgvk6005 Жыл бұрын

我的理解是这样的，Q代表你在浏览器中输入的问题，K代表浏览器返回的不同网页（回答），attention score由Q和K计算得到，代表我们对每个网页的质量判断，判断我们觉得哪个网页应该更容易找到问题的解答。最后V代表每个网页中的内容，之后由attention score和V计算得到b，代表我们最后得到最终答案

@EgD996 3 жыл бұрын

word embedding: kzbin.info/www/bejne/jmizeWaEqr6KZrM (普通话）

@garfieldlavi Жыл бұрын

請問alpha' 跟 W的相乘也是element wise的相乘嗎？

@niceonea4343 Жыл бұрын

为什么不用原始输入向量a_1，而要使用新的v来计算最后的结果

@jinli1835 9 ай бұрын

想看作业的内容

@Recordingization Жыл бұрын

wk和wq都是神经网络里的参数吗?

@Teng_XD 3 жыл бұрын

在那里可以看助教的程序？

@HungyiLeeNTU 3 жыл бұрын

都在這裡了: speech.ee.ntu.edu.tw/~hylee/ml/2021-spring.html

@jiashupan9181 3 жыл бұрын

请问Prof. Wu的影片会上传吗？

@hanwang4779 3 жыл бұрын

同问，谢谢！

@HungyiLeeNTU 3 жыл бұрын

@@hanwang4779 不好意思，我這邊不會在 YT 上公開 Prof. Wu 的影片

@hanwang4779 3 жыл бұрын

@@HungyiLeeNTU 很可惜了，不过还是特别感谢李老师的精彩课程！

@zongtaowang7840 3 жыл бұрын

李老师，Wq,Wk,Wv应该不是共享的吧，是不是讲错了？

@HungyiLeeNTU 3 жыл бұрын

請問你的問題是來自影片中的哪一個段落呢?

@zongtaowang7840 3 жыл бұрын

@@HungyiLeeNTU 比如：24：01的ppt，看上去不同的a_i都是和相同的W^q相乘，也就是W^q是共享的，这个是对的吗？为什么要共享，而不是比如W^{q}_{i},每个a_i对应一个不同的W呢？

@HungyiLeeNTU 3 жыл бұрын

@@zongtaowang7840 是共享的沒錯喔

@zongtaowang7840 3 жыл бұрын

@@HungyiLeeNTU 谢谢您的回复，但是为什么要共享呢？有什么目的吗？

@user-xd3yp1kv4y 3 жыл бұрын

您好, 如果: "W^{q}_{i},每个a_i对应一个不同的W", 我认为您可以将 "非共享W" 视作一个共享的 W^q 生成了 query, 并分别于每个query注入与 i 关联的位置信息但 i 的位置信息可以透过 Positional Encoding 提供就好而且 "非共享W" 会导致你的 a 长度必须固定, 那么整个数学式写下来就是等效一个"对 a序列的全连接层FCN"了