[Paper Review] Attention is All You Need (Transformer)

  Рет қаралды 15,803

서울대학교 산업공학과 DSBA 연구실

서울대학교 산업공학과 DSBA 연구실

Күн бұрын

Пікірлер: 12
@ggadsc
@ggadsc 10 ай бұрын
트랜스포머는 이것만 잘 이해해도 될 것 같습니다. 좋은자료 감사합니다. 무엇보다 설명하신 인코더로 들어가는 예시 문장이 너무 좋았습니다. "지금이니!"
@giopaik
@giopaik Жыл бұрын
많은 영상과 글을 봐도 이해하기가 쉽지 않았는데 정말 설명을 잘하시는 것 같습니다. 좋은 자료 감사합니다!
@자연어천재만재
@자연어천재만재 2 жыл бұрын
코드와 함께 설명된 게 정말 좋은 것 같아요 감사드립니다 :) 13:11 제가 많은 position encoding 자료를 봤는데 여기 설명이 제일 좋다고 느끼네요 직관적입니다
@정승균-k1d
@정승균-k1d 3 жыл бұрын
좋은 자료 감사합니다. 궁금한 점이 있는데 34:00 에 Residual Connection + Layer Normalization 이후 Concat 이 되는 걸로 설명이 되있는데 Concat 이후(정학히는 Multihead 에서 이미 concat이 되어 나오는걸로 이해했습니다) Residual Connection + Layer Normalization 이 서순이 맞지 않나 생각되는데 혹시 제가 잘못 이해한 것일까요??
@dsba2979
@dsba2979 3 жыл бұрын
안녕하세요, 정승균님. Transformer의 multihead attention 모듈 자체에 concat이 포함되므로 지적하신 부분이 맞습니다. (github.com/jadore801120/attention-is-all-you-need-pytorch/blob/132907dd272e2cc92e3c10e6c4e783a87ff8893d/transformer/SubLayers.py#L53) 34:00 부분의 장표에서 concat 부분을 없애고, Multihead Attention -> Residual Connection -> Layer Normalization -> FFN의 순서가 맞습니다. (단, 위 첨부한 코드 상으로는 multihead attention 모듈 내에 residual connection과 normalization이 포함되어 있습니다.) 추가적으로, 43:10 장표에서의 decoder multihead self-attention 부분 또한 마찬가지로 수정이 되어야 맞습니다. 좋은 지적 감사드리며, 해당 수정 내용 댓글에 추가하였습니다. 감사합니다.
@정승균-k1d
@정승균-k1d 3 жыл бұрын
@@dsba2979 답변 감사드립니다!
@marcaschristiano1824
@marcaschristiano1824 2 жыл бұрын
많은 도움되었습니다. 감사합니다!
@nbumkim
@nbumkim 2 жыл бұрын
강의 잘 들었습니다!. 너무 좋네요^^ 궁금한 점은 Multihead attention에서 matrix 연산 중 Q, K pair의 순서가 서로 다른데 (색으로 표현) 의미가 있는 건가요?
@hojinius
@hojinius 2 жыл бұрын
정말 감사합니다!!!
@maengjun3244
@maengjun3244 3 жыл бұрын
감사합니다!
@samchunghwang7454
@samchunghwang7454 Жыл бұрын
자료 아주 잘 만들었던데요. 발표자료도 공유하면 더 좋을 것 같습니다.
@JakeYoon
@JakeYoon 3 жыл бұрын
감사합니다 !
[Paper Review] Batch Normalization
29:36
서울대학교 산업공학과 DSBA 연구실
Рет қаралды 6 М.
JAVA 1 RU (19.12.2024) LESSON 16 - Viktor
2:14:15
JavaGuru Software Development Courses
Рет қаралды 40
黑天使只对C罗有感觉#short #angel #clown
00:39
Super Beauty team
Рет қаралды 36 МЛН
To Brawl AND BEYOND!
00:51
Brawl Stars
Рет қаралды 17 МЛН
트랜스포머 (어텐션 이즈 올 유 니드)
16:44
Minsuk Heo 허민석
Рет қаралды 84 М.
[Paper Review] How Do Vision Transformers Work?
50:48
서울대학교 산업공학과 DSBA 연구실
Рет қаралды 4,7 М.
[DLD 2022] Denoising Diffusion Implicit Models
1:25:05
대덕특구 SPACE-S
Рет қаралды 4,4 М.
Pytorch Transformers from Scratch (Attention is all you need)
57:10
Aladdin Persson
Рет қаралды 320 М.
Attention in transformers, visually explained | DL6
26:10
3Blue1Brown
Рет қаралды 1,9 МЛН
[논문리뷰] TRANSFORMER : Attention Is All You Need(2017)
17:11
엔자이너TV
Рет қаралды 14 М.
[Paper Review] Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
42:14
서울대학교 산업공학과 DSBA 연구실
Рет қаралды 14 М.
[Paper Review] Can Large Language Model Agents Simulate Human Trust Behavior?
38:55
서울대학교 산업공학과 DSBA 연구실
Рет қаралды 530
[Paper Review] VISION TRANSFORMERS NEED REGISTERS
28:29
서울대학교 산업공학과 DSBA 연구실
Рет қаралды 936