26분40초경에 self attention을 거친 값이 feed forward network으로 들어가는 과정을 설명하고 있습니다. 이때, 각 token이 거치는 feed forward network의 weight가 서로 다른 것으로 설명하고 있습니다. 이 부분은 잘못된 설명입니다. 공유되지 않는다면 dense layer를 token의 길이만큼 만들어야 하는데, 그렇게 하지는 않습니다. 각 feed forward에서는 (weight가 공유되는) 하나의 dense layer를 거치게 됩니다. 물론 6개의 encoder 각각에서는 weight가 공유되지 않습니다. 정정: 49분 경에 다시 정정하시네요. 끝나지 보지 못하는 분도 계실 수 있으니, 이글을 삭제하지는 않겠습니다.
@Srcb-q7s24 күн бұрын
20:21 이 matrix는 어떻게 계산된건가요?
@tTunes-202410 ай бұрын
상세한 설명 감사합니다~
@hpcmanleechangsung2535 ай бұрын
좋은 강의 감사드립니다. Q,K,V 들의 초기값 셋팅은 어떻게 하나요? 그냥 Random Number 로 생성하게 되는지...궁금합니다..
@류지원-o5r6 ай бұрын
훌륭한 강의 정말 감사합니다!
@yubii023 жыл бұрын
복잡하게 느껴졌던 트랜스포머가 정리가 되었습니다. 감사합니다.
@parkie0517 Жыл бұрын
좋은 강의 정말 감사합니다!
@jinho63463 жыл бұрын
좋은 강의 고맙습니다 ㅎ 교수님이 생각하시기에 논문을 잘 익히는 방법은 무엇이 있다고 생각하시나요? 우선 해당 논문 다시보고 발표자료도 만들어보고 발표도 해보았는데 아직 부족하다 생각듭니다 논문 구현까지하면 충분히 익힐 수 있을까요? 아니면 그 외에 다른 이면을 봐야할것이 있을까요?