In Transformer model, only these layer types are involved in the deep learning/containing trainable parameters, and (3) with activation functions: (1). Word Embedding Layer; (2). Weighted matrices for K, V, Q; (3). Feed Forward Layer or Fully Connected Layer. Correct?
@fanyang20613 жыл бұрын
谢谢,讲得清晰明了
@yewenli Жыл бұрын
老师讲的太好了!深入浅出!
@noonehere238 Жыл бұрын
讲的真好
@kolibre-zhou Жыл бұрын
感谢分享!
@user-sk3dr8nl9u Жыл бұрын
一輪簽! 謝謝大大,讓我知識完備很多
@bennyzhao6577 Жыл бұрын
讲的太好了老师,谢谢!
@amymu2731 Жыл бұрын
Very impressive! Thank you!
@xwyangjshb2 Жыл бұрын
感谢🙏
@DanielDD4889 Жыл бұрын
Thanks so much! One question to ask: 3.5 Positional Encoding --- where pos is the position and i is the dimension, i is in the range of 1-512, right? If this is true, how to understand PE(pos,2i)? 2i will be in the range of 2-1024? Thanks