The paper about PowerNorm states that: We find that there are clear differences in the batch statistics of NLP data versus CV data. In particular, we observe that batch statistics for NLP data have a very large variance throughout training. Is this still TRUE for ViT? I see most implementation of ViT using layernorm?
@rex36163 ай бұрын
感謝老師分享:)
@fanhaohaochen76142 жыл бұрын
讲的真的很好
@tonygan113211 ай бұрын
很荣幸加入硬Train一发神教
@gordonwong22202 жыл бұрын
谢谢李老师
@sssapphireee2 жыл бұрын
感觉老师讲课好可爱哈哈
@simonliao50203 жыл бұрын
所以...教授已經研發出 KZbin 可以自動上字幕的AI啦...
@HungyiLeeNTU3 жыл бұрын
其實 YT 本來在一些語言的影片上本來就有自動上字幕的功能 😊
@miku39203 жыл бұрын
我也想搞一個
@沈豪-d8o3 жыл бұрын
主要英文->汉语还是有点专业术语没法弄得很好
@simonliao50203 жыл бұрын
@@沈豪-d8o 對,漢語的部分還需要解決口音(鄉音)的問題
@DED_Search3 жыл бұрын
28:05 这个地方讲到layer normalization, 我听的很混乱.老师说"batch normalization是对不同的example, 不同的feature, 同一个dimension求mean and variance; layer normalization是对相同的example, 相同的feature,不同的dimension求mean and variance" 我的问题是,老师这里说的example 和 feature是同一个意思么?是指一个data sample??然后dimension其实是指feature? 谢谢
@ximingdong5033 жыл бұрын
我大概 理解了,for BN 他说的 同一个 dimension 不同的 feature 不同的 sample 是指 举个例子: word embedding dim is 2, 句子 1 “今天” 2 “明月” 是同一个 batch。 不同的 sample 是指 “今天” 和 “明月”; 不同的 feature “今天”的 今 和 “明月”的 明; 同一个 dim 是指 “今天”的 今 和 “明月”的 明 的 word embedding 中的 第一维度 进行 normalization。 for layer 他说的 同一个 feature 同一个 sample 不同 dim 是指 word embedding 中 (“今天”的今) 中的 第一维度 和 第二维度 是 同一个 sample 中 同一个 单词 的 word embedding 但是 维度不同so 叫 不同维度。