BERT (预训练Transformer模型)

  Рет қаралды 22,502

Shusen Wang

Shusen Wang

Күн бұрын

Пікірлер: 39
@nanshen9966
@nanshen9966 3 жыл бұрын
感谢王老师! 网上找了很多transformer和bert入门的资料,没有一个比您的更易懂
@QinwuXu
@QinwuXu 4 ай бұрын
说话风格很棒, 讲得也很好。
@wllbll
@wllbll 3 ай бұрын
一下就明白了cls token的意义了:他和rnn最后一个hidden输出作用差不多,只不过rnn里面,始终要通过各种架构(如lstm等)来解决最后一个hidden随着输出长度增加而丢失前面信息的问题,attention层输出的cls token,会携带 所以输出是信息,完美解决rnn的问题。attention设计精美,王老师讲的棒!
@JeremyZ1036
@JeremyZ1036 3 жыл бұрын
看了不下三遍,太喜欢王老师的风格了
@gaoxuemin9003
@gaoxuemin9003 3 жыл бұрын
讲述的确实是清晰,点赞
@yuewang-ze1qv
@yuewang-ze1qv Жыл бұрын
非常不错的讲解,深入浅出
@haolinyang4928
@haolinyang4928 4 жыл бұрын
讲非常清楚明白!谢谢!
@yusun5347
@yusun5347 4 жыл бұрын
厉害,很清楚,期待更多视频!
@chinese366
@chinese366 2 жыл бұрын
哥 讲的很清晰
@maxxxwan
@maxxxwan 3 жыл бұрын
今天又看了一遍小王老师的视频,确实是讲得好。RoBERTa通过实验把NSP给否了。其实也就差零点几个百分点,而且在不同的数据集上表现不一致,其实没什么意义。Bert这种自动生成标签的方式并不严谨。自然语言最难的是需要绝对正确,这么高capacity的模型还是生成不了稍微长一点的正确句子,说明现在走的方向可能有问题。
@ShusenWang
@ShusenWang 3 жыл бұрын
受教了!也就是说最好的预训练是只用masking,数据更多更长,再有一些小技巧,就可以达到state of the art了对吗?
@maxxxwan
@maxxxwan 3 жыл бұрын
@@ShusenWang 是的,RoBERTa建议只用masking,而且是动态masking: arxiv.org/pdf/1907.11692v1.pdf
@Bing.W
@Bing.W Жыл бұрын
Bert的方向因为chatGPT的火爆开始被人质疑了,还是生成下一个token最有价值。这个原理到底是什么,似乎也没人能说清楚。
@qchirac
@qchirac 3 жыл бұрын
老师,这里遮住的数据是随机的,合成loss函数包含的loss个数也是随机的,写keras,tensorflow时候怎么连呢?难不成每个子loss还要乘上一个阀门,阀门值0/1在数据随机生成mask时候定?
@sssklis7414
@sssklis7414 3 жыл бұрын
讲的太好了,感恩!
@jianwang8020
@jianwang8020 3 жыл бұрын
wang shu sen 你好, 我是你的观众
@woodgeorge5585
@woodgeorge5585 3 жыл бұрын
字正腔圆 好好好
@yangkewen
@yangkewen Жыл бұрын
有个地方不太明白,Bert预训练采用的是wordpiece方法,假如有些word被分拆成多个subwords,kzbin.info/www/bejne/i52mZ3SghryUpZo 这里embedding层输出的就是subword的embedding了吧,应该就不只是x1到x6了吧
@liangxu208
@liangxu208 4 жыл бұрын
讲的很清晰
@user-wq8yo7nh8d
@user-wq8yo7nh8d 2 жыл бұрын
感谢王老师,我有个问题,为什么是靠cls起始位置对应的输出c向量来判断两句话是否相邻?是否可以通过其他什么位置的单词对应的输出向量来判断呢?
@liliLearnToLife
@liliLearnToLife 2 жыл бұрын
我觉得这个只是他们事先定义的,改成别的位置插入的 符号作为预测向量应该应该都一样
@edzq9155
@edzq9155 2 жыл бұрын
0:38 ppt里面参考文献 BERT应该是 发表在NAACL2019,不是ACL。
@ShusenWang
@ShusenWang 2 жыл бұрын
是的,我写错了,多谢哈
@edzq9155
@edzq9155 2 жыл бұрын
@@ShusenWang 感谢王老师开源这么棒的教程。实在是太棒了(我是您知乎多年粉丝 哈哈哈)
@汪钰林
@汪钰林 3 жыл бұрын
我相问一下SEP上面对应的输出S由什么意义?
@ShusenWang
@ShusenWang 3 жыл бұрын
没意义。如果是多层,必须要这个,把两个序列分开。
@leonli5970
@leonli5970 3 жыл бұрын
大道至简!
@xdxn2010
@xdxn2010 3 жыл бұрын
bert的这两种构造样本的方式和传统的word2vec或seq2seq有和本质差别呢?(取前n-1个单词作为输入feature,第n个词作为label),仅仅是因为构造的样本数更多吗?
@ShusenWang
@ShusenWang 3 жыл бұрын
好问题!其实我也不确定。我觉得拿上下文作为训练数据,能更好提取语义。
@ximingdong503
@ximingdong503 3 жыл бұрын
w2v 中 每个单词对应一个 embedding, 但是 Bert 会考虑上下文 还有 position 打个比方 如果 apple 代表 水果 和 apple 代表 苹果公司 他们 出来的 embedding是不一样的 他们的 input token ID 一样的 经过 token embedding 也是 一样的 但是 出来的 output 就不一样了 因为 Bert 使用 position 和 self attention 进行 训练的。 bert output的 东西 除了 第一个 cls 就是上下文的 词向量只是 后面接了 linear layer 变成分类任务了。
@jackkod7395
@jackkod7395 3 жыл бұрын
他们本质上都是前后文信息,但是transformer结构更好结构整体信息所以效果看起来比另外的好很多
@guoqiongsong
@guoqiongsong Жыл бұрын
王老师,请讲一下GPT和ChatGPT,可以吗?
@ShusenWang
@ShusenWang Жыл бұрын
网上已经很多了,我就不班门弄斧了🤣
@chengcheng6082
@chengcheng6082 4 жыл бұрын
为了DL买了两个2080TI,然鹅玩不了BERT
@乾谦
@乾谦 2 жыл бұрын
Bert 计算量太大吗
@wangyan5229
@wangyan5229 Жыл бұрын
买十个也跑不了
@xylineone
@xylineone Жыл бұрын
位置编码一句没提😂
Transformer模型(1/2): 剥离RNN,保留Attention
24:07
Shusen Wang
Рет қаралды 54 М.
Good teacher wows kids with practical examples #shorts
00:32
I migliori trucchetti di Fabiosa
Рет қаралды 13 МЛН
怎么能插队呢!#火影忍者 #佐助 #家庭
00:12
火影忍者一家
Рет қаралды 38 МЛН
Transformer模型(2/2): 从Attention层到Transformer网络
14:33
BERT 论文逐段精读【论文精读】
45:49
跟李沐学AI
Рет қаралды 32 М.
Vision Transformer (ViT) 用于图片分类
13:09
Shusen Wang
Рет қаралды 26 М.
BERT Neural Network - EXPLAINED!
11:37
CodeEmporium
Рет қаралды 400 М.
69 BERT预训练【动手学深度学习v2】
21:51
跟李沐学AI
Рет қаралды 908
01 GPT 和 BERT 开课了(两者和 Transformer 的区别)
12:08
水论文的程序猿
Рет қаралды 254
What is BERT and how does it work? | A Quick Review
8:56
AssemblyAI
Рет қаралды 52 М.
Transformer论文逐段精读
1:27:05
跟李沐学AI
Рет қаралды 411 М.
Good teacher wows kids with practical examples #shorts
00:32
I migliori trucchetti di Fabiosa
Рет қаралды 13 МЛН