KZ
bin
Негізгі бет
Қазірдің өзінде танымал
Тікелей эфир
Ұнаған бейнелер
Қайтадан қараңыз
Жазылымдар
Кіру
Тіркелу
Ең жақсы KZbin
Фильм және анимация
Автокөліктер мен көлік құралдары
Музыка
Үй жануарлары мен аңдар
Спорт
Ойындар
Комедия
Ойын-сауық
Тәжірибелік нұсқаулар және стиль
Ғылым және технология
Transformer模型(1/2): 剥离RNN,保留Attention
24:07
BERT 看透你说的话 双向语言模型 #6.4 【莫烦Python NLP 自然语言处理教学】
17:23
Good teacher wows kids with practical examples #shorts
00:32
Помоги Nuggets Gegagedigedagedago удрать от бабульки Granny !
00:21
ЭКСКЛЮЗИВ: «Папа мені көп ұратын!» Біреудің семьясын бұздым деп айта алмаймын! Алғашқы сұхбат
2:20:23
怎么能插队呢!#火影忍者 #佐助 #家庭
00:12
BERT (预训练Transformer模型)
Рет қаралды 22,502
Facebook
Twitter
Жүктеу
1
Жазылу 29 М.
Shusen Wang
Күн бұрын
Пікірлер: 39
@nanshen9966
3 жыл бұрын
感谢王老师! 网上找了很多transformer和bert入门的资料,没有一个比您的更易懂
@QinwuXu
4 ай бұрын
说话风格很棒, 讲得也很好。
@wllbll
3 ай бұрын
一下就明白了cls token的意义了:他和rnn最后一个hidden输出作用差不多,只不过rnn里面,始终要通过各种架构(如lstm等)来解决最后一个hidden随着输出长度增加而丢失前面信息的问题,attention层输出的cls token,会携带 所以输出是信息,完美解决rnn的问题。attention设计精美,王老师讲的棒!
@JeremyZ1036
3 жыл бұрын
看了不下三遍,太喜欢王老师的风格了
@gaoxuemin9003
3 жыл бұрын
讲述的确实是清晰,点赞
@yuewang-ze1qv
Жыл бұрын
非常不错的讲解,深入浅出
@haolinyang4928
4 жыл бұрын
讲非常清楚明白!谢谢!
@yusun5347
4 жыл бұрын
厉害,很清楚,期待更多视频!
@chinese366
2 жыл бұрын
哥 讲的很清晰
@maxxxwan
3 жыл бұрын
今天又看了一遍小王老师的视频,确实是讲得好。RoBERTa通过实验把NSP给否了。其实也就差零点几个百分点,而且在不同的数据集上表现不一致,其实没什么意义。Bert这种自动生成标签的方式并不严谨。自然语言最难的是需要绝对正确,这么高capacity的模型还是生成不了稍微长一点的正确句子,说明现在走的方向可能有问题。
@ShusenWang
3 жыл бұрын
受教了!也就是说最好的预训练是只用masking,数据更多更长,再有一些小技巧,就可以达到state of the art了对吗?
@maxxxwan
3 жыл бұрын
@@ShusenWang 是的,RoBERTa建议只用masking,而且是动态masking: arxiv.org/pdf/1907.11692v1.pdf
@Bing.W
Жыл бұрын
Bert的方向因为chatGPT的火爆开始被人质疑了,还是生成下一个token最有价值。这个原理到底是什么,似乎也没人能说清楚。
@qchirac
3 жыл бұрын
老师,这里遮住的数据是随机的,合成loss函数包含的loss个数也是随机的,写keras,tensorflow时候怎么连呢?难不成每个子loss还要乘上一个阀门,阀门值0/1在数据随机生成mask时候定?
@sssklis7414
3 жыл бұрын
讲的太好了,感恩!
@jianwang8020
3 жыл бұрын
wang shu sen 你好, 我是你的观众
@woodgeorge5585
3 жыл бұрын
字正腔圆 好好好
@yangkewen
Жыл бұрын
有个地方不太明白,Bert预训练采用的是wordpiece方法,假如有些word被分拆成多个subwords,kzbin.info/www/bejne/i52mZ3SghryUpZo 这里embedding层输出的就是subword的embedding了吧,应该就不只是x1到x6了吧
@liangxu208
4 жыл бұрын
讲的很清晰
@user-wq8yo7nh8d
2 жыл бұрын
感谢王老师,我有个问题,为什么是靠cls起始位置对应的输出c向量来判断两句话是否相邻?是否可以通过其他什么位置的单词对应的输出向量来判断呢?
@liliLearnToLife
2 жыл бұрын
我觉得这个只是他们事先定义的,改成别的位置插入的 符号作为预测向量应该应该都一样
@edzq9155
2 жыл бұрын
0:38 ppt里面参考文献 BERT应该是 发表在NAACL2019,不是ACL。
@ShusenWang
2 жыл бұрын
是的,我写错了,多谢哈
@edzq9155
2 жыл бұрын
@@ShusenWang 感谢王老师开源这么棒的教程。实在是太棒了(我是您知乎多年粉丝 哈哈哈)
@汪钰林
3 жыл бұрын
我相问一下SEP上面对应的输出S由什么意义?
@ShusenWang
3 жыл бұрын
没意义。如果是多层,必须要这个,把两个序列分开。
@leonli5970
3 жыл бұрын
大道至简!
@xdxn2010
3 жыл бұрын
bert的这两种构造样本的方式和传统的word2vec或seq2seq有和本质差别呢?(取前n-1个单词作为输入feature,第n个词作为label),仅仅是因为构造的样本数更多吗?
@ShusenWang
3 жыл бұрын
好问题!其实我也不确定。我觉得拿上下文作为训练数据,能更好提取语义。
@ximingdong503
3 жыл бұрын
w2v 中 每个单词对应一个 embedding, 但是 Bert 会考虑上下文 还有 position 打个比方 如果 apple 代表 水果 和 apple 代表 苹果公司 他们 出来的 embedding是不一样的 他们的 input token ID 一样的 经过 token embedding 也是 一样的 但是 出来的 output 就不一样了 因为 Bert 使用 position 和 self attention 进行 训练的。 bert output的 东西 除了 第一个 cls 就是上下文的 词向量只是 后面接了 linear layer 变成分类任务了。
@jackkod7395
3 жыл бұрын
他们本质上都是前后文信息,但是transformer结构更好结构整体信息所以效果看起来比另外的好很多
@guoqiongsong
Жыл бұрын
王老师,请讲一下GPT和ChatGPT,可以吗?
@ShusenWang
Жыл бұрын
网上已经很多了,我就不班门弄斧了🤣
@chengcheng6082
4 жыл бұрын
为了DL买了两个2080TI,然鹅玩不了BERT
@乾谦
2 жыл бұрын
Bert 计算量太大吗
@wangyan5229
Жыл бұрын
买十个也跑不了
@xylineone
Жыл бұрын
位置编码一句没提😂
24:07
Transformer模型(1/2): 剥离RNN,保留Attention
Shusen Wang
Рет қаралды 54 М.
17:23
BERT 看透你说的话 双向语言模型 #6.4 【莫烦Python NLP 自然语言处理教学】
莫烦Python
Рет қаралды 7 М.
00:32
Good teacher wows kids with practical examples #shorts
I migliori trucchetti di Fabiosa
Рет қаралды 13 МЛН
00:21
Помоги Nuggets Gegagedigedagedago удрать от бабульки Granny !
Фани Хани
Рет қаралды 2,2 МЛН
2:20:23
ЭКСКЛЮЗИВ: «Папа мені көп ұратын!» Біреудің семьясын бұздым деп айта алмаймын! Алғашқы сұхбат
НТК Show
Рет қаралды 833 М.
00:12
怎么能插队呢!#火影忍者 #佐助 #家庭
火影忍者一家
Рет қаралды 38 МЛН
14:33
Transformer模型(2/2): 从Attention层到Transformer网络
Shusen Wang
Рет қаралды 20 М.
45:49
BERT 论文逐段精读【论文精读】
跟李沐学AI
Рет қаралды 32 М.
13:09
Vision Transformer (ViT) 用于图片分类
Shusen Wang
Рет қаралды 26 М.
38:16
【生成式AI導論 2024】第10講:今日的語言模型是如何做文字接龍的 - 淺談Transformer (已經熟悉 Transformer 的同學可略過本講)
Hung-yi Lee
Рет қаралды 37 М.
11:37
BERT Neural Network - EXPLAINED!
CodeEmporium
Рет қаралды 400 М.
21:51
69 BERT预训练【动手学深度学习v2】
跟李沐学AI
Рет қаралды 908
12:08
01 GPT 和 BERT 开课了(两者和 Transformer 的区别)
水论文的程序猿
Рет қаралды 254
8:56
What is BERT and how does it work? | A Quick Review
AssemblyAI
Рет қаралды 52 М.
1:27:05
Transformer论文逐段精读
跟李沐学AI
Рет қаралды 411 М.
1:03:11
环境安装,BERT、GPT、T5 性能测试,和横向对比【100亿模型计划】
跟李沐学AI
Рет қаралды 1,6 М.
00:32
Good teacher wows kids with practical examples #shorts
I migliori trucchetti di Fabiosa
Рет қаралды 13 МЛН