DALL·E 2【论文精读】
1:27:55
Жыл бұрын
ViLT 论文精读【论文精读】
1:03:26
GPipe论文精读【论文精读】
58:48
Pathways 论文精读【论文精读】
1:02:13
I3D 论文精读【论文精读】
52:31
Пікірлер
@ShifangXuCN
@ShifangXuCN Күн бұрын
比天比地比空气,对比学习真厉害!
@月白-u7y
@月白-u7y 2 күн бұрын
神中神的影片,幫助我整理了大綱~而且每個模型都有簡單介紹主要功用。 感謝老師
@张胡-s4w
@张胡-s4w 4 күн бұрын
棒棒哒
@HuihuaHuang-is7ko
@HuihuaHuang-is7ko 10 күн бұрын
虽然没有机会去做学术,工作的内容涉及IT的也相对比较少,但是看看大佬的视频涨涨见识。
@legendyang1837
@legendyang1837 18 күн бұрын
请问关于将人类说出来的语言命令转换成机器人具体可执行的机器指令有哪些模型可以推荐试用的?
@legendyang1837
@legendyang1837 18 күн бұрын
请问关于将人类说出来的语言命令转换成机器人具体可执行的机器指令有哪些模型可以推荐试用的?
@0xLoKiETH
@0xLoKiETH 20 күн бұрын
感谢老师
@yyyhu6007
@yyyhu6007 22 күн бұрын
感觉博主知道更关键和很细节的东西,但又和论文一样有意避开这些东西,只愿意委婉的涉及到一些.
@鄭師漢
@鄭師漢 24 күн бұрын
瞎講
@shifangxu1054
@shifangxu1054 28 күн бұрын
一如既往得高质量讲解👍
@benlee5042
@benlee5042 29 күн бұрын
感謝分享
@pengyiliao7240
@pengyiliao7240 Ай бұрын
讲解得太棒了!感谢!!
@shifangxu1054
@shifangxu1054 Ай бұрын
请问这期视频中的老师怎么称呼呢?
@shifangxu1054
@shifangxu1054 Ай бұрын
读论文不只是了解技术细节,更重要是吸收不同作者的观点,最终形成自己独特的观点。
@shifangxu1054
@shifangxu1054 Ай бұрын
温故而知新。时至今日,重读AlexNet论文,重看李沐老师的解读,仍然能够得到新的感悟。
@menkiguo7805
@menkiguo7805 Ай бұрын
一直不理解为什么图像文本对算无监督 这个监督信号比标签还要强吧
@weizhang6537
@weizhang6537 Ай бұрын
视频中PPT+前置摄像头是通过什么工具实现的呢?
@陈晓-b2w
@陈晓-b2w Ай бұрын
好好学习,天天向上。
@Duominggengfu
@Duominggengfu Ай бұрын
泄密了?
@GundamCipher
@GundamCipher Ай бұрын
那他怎么知道这些处理数据的方式哪个是真有用哪些只是拍脑袋?
@turinglifechu9419
@turinglifechu9419 Ай бұрын
3.1, 3.2, 3.3好像没有。
@chinese-good-news
@chinese-good-news Ай бұрын
Transformer把序列信息抽取出来,加工成我们想要的语义空间。
@ilomilor849
@ilomilor849 Ай бұрын
那个playground demo其实不是实时训练的,而是加载相应参数的预训练模型
@Ake178178sVideo
@Ake178178sVideo Ай бұрын
for lots of java codes,any embedding model is good for RAG, or we have to use fine-tuning on a model?
@binwangcu
@binwangcu Ай бұрын
聊VLMo,”视觉训练的transformer能直接用在语言上”。 厉害
@techbays675
@techbays675 2 ай бұрын
沐神 视频不能停啊, 没有你的 视频 Research 搞不下去啊, 线上导师
@gabelliemann322
@gabelliemann322 2 ай бұрын
回头看,模型切割放在GPU就是现在LLM的情况,实属远见
@yshliu4434
@yshliu4434 2 ай бұрын
讲得太好了,牛
@曼曼曼慢
@曼曼曼慢 2 ай бұрын
老师好,虽然但是,我不清楚老师是哪里人哈,褒义词的读音建议老师查一下哈~(继续听讲)
@xhinker
@xhinker 2 ай бұрын
这位老哥去搞 LLama 3.1 了,不得了
@paralellun8485
@paralellun8485 2 ай бұрын
33:11 GPT2
@paralellun8485
@paralellun8485 2 ай бұрын
19:08~23"00 3.1 Unsupervised pre-training 20:30 為什麼要相加 ?? 24:52 看不懂式(3)(4)
@shutiao561
@shutiao561 2 ай бұрын
kzbin.infodBQ-UdlIEoE?si=ef4x2WosplWwDYG0 这种视频有大佬知道是怎么做出来的吗?萌新求教
@paralellun8485
@paralellun8485 2 ай бұрын
23:35 殘差連接 ?? 51:41 第三個注意力層??
@MaxwellClerkJames-f5x
@MaxwellClerkJames-f5x 2 ай бұрын
牛逼了,最喜欢听李老师讲业界八卦,小组内斗,撕逼日常。大佬,多来点。
@newtom5238
@newtom5238 2 ай бұрын
现在看来,这种级别的先进运算集群可不是小打小闹。meta的这个集群,论算力,特别是考虑核间通讯损耗的真正有效算力,让前不久还排在榜首的超算中心,现在看来也就像少儿中心了。不看好国内小绵羊运营商最近上马的运算中心了。要为这种完全没有标准的基建做验收,还得靠真正懂行的赤子,写高水平的代码,从而检测不断移动的指标,加之需要妥善的部署并评估运维损耗的问题,这又涉及到设计实验并统计。定力不足或责任心不足的人,要搞点水分虚报参数,或在采购上以次充好,实在容易且难以察觉。所以,靠关系拿公帑的,国企这种权责不清的,根本不适合这类业务。只看好华为字节阿里这种,兼具财力和狼性的公司。
@readthefuckingmanual
@readthefuckingmanual 2 ай бұрын
NB
@jiesu2575
@jiesu2575 2 ай бұрын
讲的太好了,感谢老师,感谢互联网!!!!!!
@balabalabalabalabala
@balabalabalabalabala 2 ай бұрын
我认真听了的。褒义词和裹义词。
@fuzhixu1405
@fuzhixu1405 2 ай бұрын
what! 沐神更新视频了?
@陸海量
@陸海量 2 ай бұрын
懂了 我这就去买ipad(狗头
@wangharold6926
@wangharold6926 2 ай бұрын
老师 如何评价Qwen2?
@brozuh2364
@brozuh2364 2 ай бұрын
这个地方data parallel应该是指fsdp,不是训练的data。fsdp和model parallel (tensor parallel)之间的差别很细微。
@pengfeihe-pp6nw
@pengfeihe-pp6nw 15 күн бұрын
fsdp也是data parallel的一种, 本质上也是data parallel. 这几个parallel你好像没有学清楚, 建议再看看.
@deter3
@deter3 2 ай бұрын
你的专业应该就不是大语言模型方面,讲解的技术洞察力方面极度一般。
@海涛张-m1u
@海涛张-m1u 2 ай бұрын
大佬的讲解真是入木三分,对大模型的学习太有帮助了
@jiayizhang7406
@jiayizhang7406 2 ай бұрын
刚做LLM就看到沐神回归!
@pimoney7846
@pimoney7846 2 ай бұрын
AI会不会构建出一种全新的语言体系,来取代目前的中文和英文?
@menglilingsha
@menglilingsha 2 ай бұрын
沐大师 11分41秒显示FFN dimension 是12288(70B), 是8192*1.5但huggingface model 对应70B model的intermediate size 是28672=8192*3.5. 12288好像是gpt 3.5的size。 论文中7B和405B也和HF上的intermediate size不一样。这里是我看错了还是笔误了?
@JoshJu
@JoshJu 2 ай бұрын
刚看了一眼arxiv上的pdf (2407.21783v2) FFN dimension 70B也是28672, 大概率是早期版本笔误
@allandogreat
@allandogreat 2 ай бұрын
李老师生二胎了
@alsonyang230
@alsonyang230 2 ай бұрын
1:26:50, 这里我有点不理解,有大神能解释一下吗? 听起来好像是说如果把CLIP再结合上自监督(self-supervision)和 伪标签(self-training )这两种方法的话,他会更强。但在我理解里CLIP就是用自监督(self-supervision)做出来的,是我理解错了吗?虽然CLIP跟一般的自监督不一样,但总归就是用不是绝对正确的label+contrastive learning去完成这个学习。 如果CLIP不能定义为用的self-supervision的话, 那他要怎么用上self-supervision这个方法在这种mutimodal的setup呢? 另一个方式去理解这句话是,CLIP正是因为结合了这两个方法,所以比传统的监督学习(supervised learning)更强。但这么理解的话,CLIP是怎么用上了self-training了呢。。