ご視聴コメントありがとうございます! Attention is All You Need の論文タイトルにある通り、RNN の補助としての attention 利用ではなく、attention のみでこの精度にしたことは本当に重要な貢献ですね! SENet も似た発想で、文献によっては attention の走りと紹介されていることもあるので、まさにその通りと思います。 やはり、人間の創造性にはいつも驚かされます😊
ご視聴コメントありがとうございます!🎉 Decoder の入力は、 I am Aicia となります。 たとえば、Aicia を推論するときは、その直前までの I と am (と という文頭を表す記号)を入力します。 これによって、「今まで何を出力してきたか」を元に、次に何を出力するかを推論することができます。 生成系言語モデルではよく使われるテクニックです! このあたりは、ノリとしては、ここで解説しているものが近いと思います! (細部はやや違いますが、ノリは一緒) kzbin.info/www/bejne/hHvHo4ysjsyUhq8
ご視聴コメントありがとうございます!🎉 まさに、そんな理解で良いと思いますよ! 最後に softmax を使って重みを計算するのは流石に両者共通で、 その softmax に入れる数値をどう計算するかが異なると、そういう理解で良いのではないかと思います。 あと、加えるとしたら、Attention is All You Need という論文タイトルにもあるように、Encoder も Attention 機構で計算し、RNN を用いないことは、Transformer の大きな特徴かと思います!