BERT (预训练Transformer模型)

Рет қаралды 22,502

Shusen Wang

Күн бұрын

Пікірлер: 39

@nanshen9966 3 жыл бұрын

感谢王老师！网上找了很多transformer和bert入门的资料，没有一个比您的更易懂

@QinwuXu 4 ай бұрын

说话风格很棒, 讲得也很好。

@wllbll 3 ай бұрын

一下就明白了cls token的意义了：他和rnn最后一个hidden输出作用差不多，只不过rnn里面，始终要通过各种架构（如lstm等）来解决最后一个hidden随着输出长度增加而丢失前面信息的问题，attention层输出的cls token，会携带所以输出是信息，完美解决rnn的问题。attention设计精美，王老师讲的棒！

@JeremyZ1036 3 жыл бұрын

看了不下三遍，太喜欢王老师的风格了

@gaoxuemin9003 3 жыл бұрын

讲述的确实是清晰，点赞

@yuewang-ze1qv Жыл бұрын

非常不错的讲解，深入浅出

@haolinyang4928 4 жыл бұрын

讲非常清楚明白！谢谢!

@yusun5347 4 жыл бұрын

厉害，很清楚，期待更多视频！

@chinese366 2 жыл бұрын

哥讲的很清晰

@maxxxwan 3 жыл бұрын

今天又看了一遍小王老师的视频，确实是讲得好。RoBERTa通过实验把NSP给否了。其实也就差零点几个百分点，而且在不同的数据集上表现不一致，其实没什么意义。Bert这种自动生成标签的方式并不严谨。自然语言最难的是需要绝对正确，这么高capacity的模型还是生成不了稍微长一点的正确句子，说明现在走的方向可能有问题。

@ShusenWang 3 жыл бұрын

受教了！也就是说最好的预训练是只用masking，数据更多更长，再有一些小技巧，就可以达到state of the art了对吗？

@maxxxwan 3 жыл бұрын

@@ShusenWang 是的，RoBERTa建议只用masking，而且是动态masking: arxiv.org/pdf/1907.11692v1.pdf

@Bing.W Жыл бұрын

Bert的方向因为chatGPT的火爆开始被人质疑了，还是生成下一个token最有价值。这个原理到底是什么，似乎也没人能说清楚。

@qchirac 3 жыл бұрын

老师，这里遮住的数据是随机的，合成loss函数包含的loss个数也是随机的，写keras，tensorflow时候怎么连呢？难不成每个子loss还要乘上一个阀门，阀门值0/1在数据随机生成mask时候定？

@sssklis7414 3 жыл бұрын

讲的太好了，感恩！

@jianwang8020 3 жыл бұрын

wang shu sen 你好，我是你的观众

@woodgeorge5585 3 жыл бұрын

字正腔圆好好好

@yangkewen Жыл бұрын

有个地方不太明白，Bert预训练采用的是wordpiece方法，假如有些word被分拆成多个subwords，kzbin.info/www/bejne/i52mZ3SghryUpZo 这里embedding层输出的就是subword的embedding了吧，应该就不只是x1到x6了吧

@liangxu208 4 жыл бұрын

讲的很清晰

@user-wq8yo7nh8d 2 жыл бұрын

感谢王老师，我有个问题，为什么是靠cls起始位置对应的输出c向量来判断两句话是否相邻？是否可以通过其他什么位置的单词对应的输出向量来判断呢？

@liliLearnToLife 2 жыл бұрын

我觉得这个只是他们事先定义的，改成别的位置插入的符号作为预测向量应该应该都一样

@edzq9155 2 жыл бұрын

0:38 ppt里面参考文献 BERT应该是发表在NAACL2019，不是ACL。

@ShusenWang 2 жыл бұрын

是的，我写错了，多谢哈

@edzq9155 2 жыл бұрын

@@ShusenWang 感谢王老师开源这么棒的教程。实在是太棒了（我是您知乎多年粉丝哈哈哈）

@汪钰林 3 жыл бұрын

我相问一下SEP上面对应的输出S由什么意义？

@ShusenWang 3 жыл бұрын

没意义。如果是多层，必须要这个，把两个序列分开。

@leonli5970 3 жыл бұрын

大道至简！

@xdxn2010 3 жыл бұрын

bert的这两种构造样本的方式和传统的word2vec或seq2seq有和本质差别呢？（取前n-1个单词作为输入feature，第n个词作为label），仅仅是因为构造的样本数更多吗？

@ShusenWang 3 жыл бұрын

好问题！其实我也不确定。我觉得拿上下文作为训练数据，能更好提取语义。

@ximingdong503 3 жыл бұрын

w2v 中每个单词对应一个 embedding，但是 Bert 会考虑上下文还有 position 打个比方如果 apple 代表水果和 apple 代表苹果公司他们出来的 embedding是不一样的他们的 input token ID 一样的经过 token embedding 也是一样的但是出来的 output 就不一样了因为 Bert 使用 position 和 self attention 进行训练的。 bert output的东西除了第一个 cls 就是上下文的词向量只是后面接了 linear layer 变成分类任务了。

@jackkod7395 3 жыл бұрын

他们本质上都是前后文信息，但是transformer结构更好结构整体信息所以效果看起来比另外的好很多