ViT论文逐段精读【论文精读】

  Рет қаралды 52,636

跟李沐学AI

跟李沐学AI

Күн бұрын

Пікірлер: 50
@patrickzhang-b3j
@patrickzhang-b3j Жыл бұрын
这个哥们讲的内容很喜欢!👍
@huangjames8130
@huangjames8130 Жыл бұрын
所以長話短說 先用CNN(或其他方法)得到足夠小的feature map,再用transformer跑
@xuzhang2431
@xuzhang2431 3 жыл бұрын
讲得太棒了!非常感谢!!
@xyh6552
@xyh6552 10 ай бұрын
cnn和transformer基本上是同一件事情,只不过cnn更先进在特征就是tags,trasformer先进在不用一个单位一个单位滑动,但是实际上特征层和tags是一件事情的话特征层比tags的attention内积更高效,这类似于用所有basis和前几个特征函数近似,trasformer低效在要标注和attention本身,高效在不需要一个单位一个单位摞
@morningstar618z8
@morningstar618z8 Жыл бұрын
讲得太好了,清晰明了,幽默风趣,全程无尿点!
@chrischen6
@chrischen6 Жыл бұрын
謝謝老師講解 非常清楚 很受用
@pantan4206
@pantan4206 3 жыл бұрын
感谢老师!B站看完了来这里再来点赞
@越程越香
@越程越香 Жыл бұрын
感謝大神細心講解
@yifanbai3072
@yifanbai3072 2 жыл бұрын
Zhu老师讲的很棒,感谢
@nicolezhao9597
@nicolezhao9597 2 жыл бұрын
请问老师叫什么名字?
@louisyuliu7200
@louisyuliu7200 2 жыл бұрын
感谢老师精彩的讲解和清楚的分析!
@tedmsxu
@tedmsxu Жыл бұрын
这个人的水平至少是国内优青水平~!
@lionhuang9209
@lionhuang9209 2 жыл бұрын
谢谢讲解!
@Rocky-px8jg
@Rocky-px8jg 2 жыл бұрын
谢谢作者分享!
@muyuanliu3175
@muyuanliu3175 8 ай бұрын
讲的真的好
@twyunghui
@twyunghui 2 жыл бұрын
謝謝 講解得非常清楚
@Zhichaodeng2023
@Zhichaodeng2023 Жыл бұрын
讲的很清透!点赞
@geesehoward8838
@geesehoward8838 Жыл бұрын
讲得太仔细了,非常感谢!!
@alphaprofold5707
@alphaprofold5707 3 жыл бұрын
来龙去脉,前因后果, 讲的太好了
@zeweichu550
@zeweichu550 2 жыл бұрын
讲得非常好👍学习了
@lionhuang9209
@lionhuang9209 2 жыл бұрын
Great presentation!
@量化作手
@量化作手 2 жыл бұрын
怎么找不到 老师的 VITS 解读了呢?
@weizhang6537
@weizhang6537 Ай бұрын
视频中PPT+前置摄像头是通过什么工具实现的呢?
@yafengyang1099
@yafengyang1099 Жыл бұрын
讲的太好了
@x7lwavuj976
@x7lwavuj976 3 жыл бұрын
老師整容了?
@albertwang5974
@albertwang5974 2 жыл бұрын
这是另外一个人!
@nicolezhao9597
@nicolezhao9597 2 жыл бұрын
请问老师叫什么名字?
@incameet
@incameet Жыл бұрын
What is the name of the speaker?
@mingzhaochina
@mingzhaochina Жыл бұрын
真棒!
@zhanlucas935
@zhanlucas935 2 жыл бұрын
感谢感谢!!!
@turing-code
@turing-code 10 ай бұрын
44:15处,应该是√d而不是d/2
@ShifangXuCN
@ShifangXuCN 7 күн бұрын
论文里面是 d/2。 而且我个人认为也是用d/2比较合适。 横向和纵向都是用 d/2 长度的向量表示,然后把这两个向量拼起来,得到长度为d的向量。
@xyh6552
@xyh6552 10 ай бұрын
消融实验结果差不多是因为加是完全不对的,加所带来的特征在动力系统里面全都平均掉了
@xyh6552
@xyh6552 10 ай бұрын
位置信息如何加进去是个编码问题,要尽可能的保证信息无损的同时占用空间小,f(attention(x),position)应该比直接把位置信息加在x里面好
@dayeye2011
@dayeye2011 8 ай бұрын
这位帅哥是谁?
@Kane-s2e
@Kane-s2e Жыл бұрын
為什麼是224/16=14 然後input = 14*14 為何不是input = 16*16 input 是一個一個patch 的意思嗎?
@huachengli1786
@huachengli1786 11 ай бұрын
我的理解和你一样。一张图类比一句话。所以一个patch类比于一个词。如果word embedding 是512, 那ViT里对应的就是16x16。
@huachengli1786
@huachengli1786 11 ай бұрын
你理解的是对的,所以文章标题是 An Image is Worth 16x16 words🤣
@Kane-s2e
@Kane-s2e 11 ай бұрын
@@huachengli1786 哈哈我還沒有發現
@grhaonan
@grhaonan Жыл бұрын
Transformer base 的head 数目好像是8吧
@扶墙种冬瓜
@扶墙种冬瓜 2 жыл бұрын
哈哈
@jinhuizhang702
@jinhuizhang702 2 жыл бұрын
沐神呢
@liqiushui2427
@liqiushui2427 2 жыл бұрын
44分30秒不应该是根号D嘛
@ShifangXuCN
@ShifangXuCN 8 күн бұрын
你是说 44分07 秒 吗?视频里面提的 “纵坐标是 d/2”,是没错的。
@ShifangXuCN
@ShifangXuCN 8 күн бұрын
请问你是指哪个地方应该是 根号D呢?
@hailuyin9915
@hailuyin9915 Жыл бұрын
大神
@xufenghu3063
@xufenghu3063 3 жыл бұрын
嘿嘿 来了
@jeffreyhao1343
@jeffreyhao1343 2 жыл бұрын
------------------------------- Pretty good, done. -------------------------------
@jeffreyhao1343
@jeffreyhao1343 2 жыл бұрын
ViT-FRCNN and SETR
@jeffreyhao1343
@jeffreyhao1343 2 жыл бұрын
Transformer论文逐段精读: kzbin.info/www/bejne/pKvUnXl_mKiGjbM
BERT 论文逐段精读【论文精读】
45:49
跟李沐学AI
Рет қаралды 33 М.
Swin Transformer论文精读【论文精读】
1:00:22
跟李沐学AI
Рет қаралды 34 М.
The IMPOSSIBLE Puzzle..
00:55
Stokes Twins
Рет қаралды 169 МЛН
Мама у нас строгая
00:20
VAVAN
Рет қаралды 10 МЛН
GAN论文逐段精读【论文精读】
46:17
跟李沐学AI
Рет қаралды 21 М.
Transformer论文逐段精读
1:27:05
跟李沐学AI
Рет қаралды 422 М.
多模态论文串讲·上【论文精读】
1:12:25
跟李沐学AI
Рет қаралды 24 М.
InstructGPT 论文精读【论文精读】
1:07:11
跟李沐学AI
Рет қаралды 83 М.
【機器學習2021】Transformer (下)
1:00:34
Hung-yi Lee
Рет қаралды 162 М.
CLIP 论文逐段精读【论文精读】
1:38:26
跟李沐学AI
Рет қаралды 32 М.
[Paper Review] ViT: An Image is Worth 16x16 Words:Transformers for Image Recognition at Scale
26:33
서울대학교 산업공학과 DSBA 연구실
Рет қаралды 9 М.
【機器學習2021】Transformer (上)
32:48
Hung-yi Lee
Рет қаралды 214 М.
MAE 论文逐段精读【论文精读】
47:04
跟李沐学AI
Рет қаралды 16 М.