[딥러닝 기계 번역] Transformer: Attention Is All You Need (꼼꼼한 딥러닝 논문 리뷰와 코드 실습)

Рет қаралды 180,844

동빈나

Күн бұрын

Пікірлер: 111

@gyuhapark6158 4 жыл бұрын

제가 본 transformer 강의 중 가장 설명을 잘하시네요!

@jaeseokkim1932 3 жыл бұрын

논문의 이해도도 뛰어나시고 설명도 잘하시고, 관련분야 공부하시는분들에게 정말 많은 도움이 될 영상인거 같습니다!

@mh.hwang90 4 жыл бұрын

와.. 이렇게 코드 하나하나 친절하게.. 감사합니다 ㅠㅜ

@김건일-g4g 3 жыл бұрын

👏👏👏👏 transformer 강의 정말 잘 들었습니다! 처음 박사 과정을 시작했는데 이 논문은 알아야 할것 같아 막혀서 답답했는데 이거 보고는 많은 도움이 되었습니다! 코드랑 중간중간에 강조하셨던 부분들도 좋았습니다! 감사합니다

@WTFIAMTKL 2 жыл бұрын

19:05 포지셔널 인코딩. 선생님 잘 보고 갑니다. 아직 잘 이해가 안 돼서 더 봐야겠어요!

@seungwondo1822 4 жыл бұрын

갓동빈님.. 감사합니다.. 덕분에 정리되지 않던 내용들이 쏙쏙 이해되네요. 부와 영광을 얻으시길 ,,,

@rockstar-lt8rg 2 жыл бұрын

이론 설명부터 코드까지 단계별로 너무 깔끔하고 상세한 설명 정말 감사합니다 논문 이해하는데 정말 큰 도움이 됐어요

@oneonlee Жыл бұрын

35:44 "Attention Energies"값을 통해 각각의 단어가 서로에게 어떠한 연관성을 가지는지 구할 수 있음

@얌냠치킨-y2m Жыл бұрын

훌륭한 분입니다

@김주호-f2h 6 ай бұрын

이해가 잘 되고 코드 실습이랑 원본 논문 까지 리뷰해주시니까 정말 도움이 많이되네요 감사합니다!!

@user-kg567ed Жыл бұрын

transformer 논문을 정확히 설명해 주셔서 많은 도움이 됐습니다. 감사합니다

@김용석-h7l Жыл бұрын

항상 고맙습니다!! 이 동영상 덕분에 트랜스포머에 대한 감을 잡을 수 있었습니다.

@derrickkwon2232 3 жыл бұрын

자연어처리 공부중인 대학생입니다! attention is all you need 공부중이였는데 정말 정리가 잘 되있어서 놀랐습니다. 공부에 도움 주셔서 정말 감사합니다.

@Ebue2 Жыл бұрын

오랜만에 트랜스포머를 다시 보려니 헷갈려서 찾아봤는데, 이렇게 잘 설명된 강의가 있었네요. 한 번에 다 이해가 되네요 감사합니다

@강태천-q7h 3 жыл бұрын

37:48 에서 W(우변 두번째 항)의 차원은 d_model X d_model이 아니라 (d_v * head수) X d_model이 되어야 하지 않나요??

@김영준-l2r9x 3 жыл бұрын

결국 d_v * head수 = d_model이 돼서 그렇게 적으신 것 같네요

@진현성-z1u Жыл бұрын

트랜스포머 개념이 잘 정리된 듯합니다. 강의 감사합니다~

@kbkim-f4z 4 жыл бұрын

이런 강의를 무료로 들어도 되나 싶습니다..ㅠㅠ 항상 잘보고 있습니다!

@태윤황-s3y 11 ай бұрын

논문 읽다가 잘 이해가 안되었는데 설명 정말 감사드립니다!!

@dirtyvibe9573 10 ай бұрын

학부생따리인데 졸프로 자연어처리 다루게 생겨서 공부하는데 덕분에 그나마 도움 얻습니다 ㅠㅠ

@ho0516 3 жыл бұрын

진짜 정말 감사합니다. 더 깊은 이해를 하는데 도움을 많이 주시고, 몇년 전부터 궁금한 이론이 있으면 나동빈님 영상 보면서 공부했습니다! 특히 딥러닝 코드 실습은 선물드리고싶을 정도로 감사하네요 ㅠㅠ 앞으로도 꾸준히 올려주세요!! 한국 코딩발전에 힘써주세요 :) 감사합니다 !!

@ruind.8511 4 жыл бұрын

역시 설명도 쉽게 하는 교원대 출신 갓갓갓!

@alyosha0718 10 ай бұрын

대박이네요 진짜❤

@마이구매 Жыл бұрын

정말감사합니다 적게일하고 많이버세요

@suljeewoo 3 жыл бұрын

Transformers 논문 읽었었는데 이해하는데 많은 도움이 되었습니다! BERT 논문도 올려주세용 ㅜㅜㅜ

@김성훈-w2u5e 3 жыл бұрын

코드 설명 덕분에, 이론에 대한 부족한 이해를 보완할 수 있었습니다. 정말 잘 봤습니다.

@leewg88 3 жыл бұрын

13:35 이 부분에서 c_i가 좀 헷갈리네요 오른쪽 그림에서는 alpha_{t,1} 부터 시작해서 alpha_{t,T}로 끝나니까 c_i 에서 i는 t값이 되어야 하는것 같은데 그럼 총 t개 만큼의 c를 만들어서 s_{t-1}와 s_t를도출해 내는건지 ..? 그런데 t는 해당 timestep을 나타내는 것이지 vector의 사이즈를 나타내는 것은 아닌것 같고 ..

@tTunes-2024 Жыл бұрын

좋은 정보를 공유해주셔서 감사합니다~

@수수-v2m 2 жыл бұрын

감사합니다 돈주고도 못구하는 코드실습까지 감동 😭😭

@SM0Cmarui 2 жыл бұрын

자연어 처리에 관심이 많았는데 핵심 논문에 대한 자세한 설명을 해주시니 너무 좋습니다

@Slystomp 4 жыл бұрын

직관적인 자료와 충분한 설명. 온라인 강의는 보통 이해하려면 3-4번 돌려봐야 했었는데 한번만 들어도 어느 정도 이해하는 느낌을 주네요~ :)

@오브젝 Жыл бұрын

좋은 정보 감사합니다! 덕분에 이해가 안되던 부분 엄청 이해가 잘됐습니다! 이해가 안가는 부분이 하나 있는데 질문좀 드릴게요. 디코더 부분에 mask self attention을 수행하는데 예측하려는 뒷부분의 참고하지 않고 출력하기 위함이라고 하셨네요. 근데 예측하려는 뒷부분은 예측이 안된, 측 아무것도 없는 상태인데 그것을 안보기 위해 mask를 한다 라는 것이 이해가 잘 안되네요.. 예를 들어 첫번째 디코더 인풋으로 sos토큰이 들어왔을때, 들어온 인풋이 sos토큰 하나밖에 없는데 가릴게 있나요?

@dasolkang1743 3 жыл бұрын

영상 37분 57초에 Wo 가중치를 곱해주는 이유가 shape를 d_model, d_model로 바꾸어주기 위한 건가요? 맞다면 왜 shape를 d_model, d_model로 바꾸어야하는걸까요..?ㅠㅠ

@vehekalfyywehhshxb Жыл бұрын

목소리도 너무 좋네요.

@지도-m3z 2 жыл бұрын

정말 감사합니다. 모델을 이해하는데 많은 도움이 되었습니다.

@jinwooseong2862 3 жыл бұрын

좋은 강의 감사합니다. 설명을 잘 하기 위해서 엄청난 노력을 하신게 느껴지네요.

@naudx5203 9 ай бұрын

지금까지 여러 트랜스포머 논문 리뷰를 봤으나...이해가 하나도 안되었고.....ㅠ하지만 이 영상을 통해 드디어 간신히 이해하엿습니다ㅠ감사합니다

@Ssiil 3 жыл бұрын

감사합니다 어텐션 가물가물했는데 같이 짚어줘서 이해가 쉬웠어요!

@JaechulLee-u2k Жыл бұрын

사랑합니다 선생님... 정말 너무너무 도움 됐어요!

@thegreatgaespi 3 жыл бұрын

혼자 학습하려니 막막했는데, 영상보고 아키텍쳐의 맥을 효과적으로 빠르게 파악하였습니다. 감사합니다👍

@이동준-p3i 2 жыл бұрын

정말 이렇게 설명을 잘하시다니 대단하세요. 꼭 동빈나님처럼 멋진 연구자가 되겠습니다 ㅋㅋ

@youngsooyi7481 3 жыл бұрын

최고의 강의입니다.

@wildforager Жыл бұрын

너무 잘 보고 있습니다. AI 공부 하는데 정말 많은 도움 되고 있습니다.

@김현우-u6x 4 жыл бұрын

너무 좋은 자료 감사합니다 !!! Batch normalization부터 항상 잘 보고 있습니다 !! 혹시 블로그에 글 작성할때 이미지 자료 사용해도 괜찮을까요??

@aidenkim-t4v Жыл бұрын

좋은 강의 감사합니다

@Lee-ou2xj 2 жыл бұрын

항상 잘보고 있습니다!!!:)

@레까-j7h 10 ай бұрын

도움 많이 되었습니다. 감사합니다.

@hannahdo980 2 жыл бұрын

최고네요 정말. 체계적인 설명 감사합니다 :)

@양현준-q9f 3 жыл бұрын

설명 너무 쉽게 잘하시네요 행님;

@jeffreylim5920 4 жыл бұрын

20:30 수렴이 빠르면 global optimum 을 찾기 좋은가요??

@dongbinna 4 жыл бұрын

좋은 질문 감사합니다. ResNet 논문에서는 residual connection을 이용했을 때 초기 단계에 빠르게 converge 할 수 있기 때문에 최적화를 쉽게 할 수 있었다는 구문이 있어 영상에서 그렇게 말했습니다. 원본 문장: "ResNet eases the optimization by providing faster convergence at the early stage." 다만 이게 직접적으로 global optima를 잘 찾을 수 있다고 주장한 내용은 아니라서, 제 의역은 경우에 따라 틀린 것 같습니다. 영상 찍을 때는 크게 고민하지 않고 말했네요... residual connection으로 인해 gradient vanishing 문제가 완화되어 이로 인해 수렴도 빨라지고, global optima도 쉽게 찾을 수 있다고 보는 게 정확한 표현인 것 같습니다. (단순히 learning rate를 줄이는 방법 등으로 억지로 빠르게 수렴하도록 하면, 되려 global optima가 아닌 local optima를 찾게 될 가능성이 커지므로)

@jeffreylim5920 4 жыл бұрын

@@dongbinna 친절한 답변 감사합니다! 42자로 물어봤는데 537자로 대답해주시다니 ㅠㅠ

@dgl3283 2 жыл бұрын

Multi head attention 관련해 질문 있습니다! 각 헤드에 대해 서로 다른 Q,K,V를 생성한다고 하셨는데, 모든 헤드는 같은 학습을 겪고 같은 input을 입력받았는데 서로 다른 Q,K,V를 생성할 수 있는 이유는 무엇인가요?

@조용현-s8i 2 жыл бұрын

너무 깔끔하시다 진짜..

@wonjunchoi4208 3 жыл бұрын

영상 너무 잘 보고 있습니다!! 해당 코드를 분석하던 중 궁금즘이 생겨 문의를 남깁니다. ic| query.shape: torch.Size([128, 26, 256]) ic| key.shape: torch.Size([128, 33, 256]) ic| value.shape: torch.Size([128, 33, 256]) multattention레이어에 들어가는 query, key,value 값들을 출력을 해 보았는데 다음과 같이 가운데의 lenth가 다른 경우가 확인이 되어 서로 다른 문장들이 베치에 포함되어 있는 것으로 생각이 되는데 제가 생각하는 것이 맞을까요

@rock__oh 3 жыл бұрын

진짜 개 오지는 설명이네요.. 감사합니다 ㅠㅠ

@jinseokmoon8633 2 жыл бұрын

좋은 정보 감사합니다!

@임효정-p1n 3 жыл бұрын

좋은 설명 감사합니다~ 구독하고 갑니다

@김중국-n3n 3 жыл бұрын

나동빈님 존경합니다.

@june6971 Жыл бұрын

덕분에 잘 이해했습니다. 감사합니다 ^^

@이태환-l2w 3 жыл бұрын

좋은 설명과 코드 감사합니다. 코드 중에 궁금한 게 있는데 token을 임베딩하는 과정에서 scale 값을 곱해주는 부분이 있는데, 이렇게 scaling 값을 곱해주는 이유가 따로 있을까요?

@유영재-c9c 3 жыл бұрын

11:45 에너지 값 구할때 a는 어떤 수식을 포함하는건가요?

@deokjoonglee52 4 жыл бұрын

transformer 설명 너무 감사합니다!

@기석윤-n7d 4 жыл бұрын

이상하게 대회에서 rnn 기법의 모델들이 너무 낮은 성적을 가진다고 생각했는데, 이미 대세가 넘어간지 3년이나 지났었군요.... 좋은 자료들 배우고 갑니다!

@강민지-p9q 4 жыл бұрын

에너지를 구하는 부분에서 i가 디코더에서 현재 state의 time-step인 것 같은데 이전의 state의 값과 인코더의 출력으로 attention score를 구하는 것인가요?

@moplaylist_ 4 жыл бұрын

좋은 논문리뷰영상 감사합니다!

@heetaelee7873 2 жыл бұрын

41:24 - Positional Encoding 동작 원리

@gaussian3750 4 жыл бұрын

잘 보고 이해하였습니다. 감사합니다.

@minjoon1324 4 жыл бұрын

최고입니다..

@jeonghwanh8617 2 жыл бұрын

training 중에 decoder에 trg가 들어가는데 test 때는 decoder에 넣을 정답 trg가 존재하지 않을텐데 어떻게 output이 나올 수 있는지 궁금합니다

@dohahwang8562 3 жыл бұрын

동빈님 덕분에 Transformer에 대한 이해를 쉽게 할 수 있었습니다. 정말 감사합니다.

@조태흠-i2f 3 жыл бұрын

강의 감사합니다. BERT 도 이렇게 해주실 생각없으신가요?

@JiyuKim-sr1mi 10 ай бұрын

형 어디 갔어, 돌아와 제발

@유튜브프리미엄-r8t 4 жыл бұрын

동빈님처럼 논문을보고 구현하는 경지에 이르고 싶은데 어디부터 시작해야할까요

@hyukiggle7560 3 жыл бұрын

혹시 처음 접하고 공부하실 때 얼마나 걸리셨나요ㅠㅠ정말 어렵네요,,,

@owlboy9997 Жыл бұрын

이제 나도 머신러닝 전문가~!?

@김민-v4x 3 жыл бұрын

동비니 굿굿 좋아요 누르고간당~~

@123wptjf3 2 жыл бұрын

님들 저 3학년 1학기 끝난 시점인데 휴학을 했슴다 (지거국 편입 준비 + 인공지능 공부) 제가 CNN은 많이 다뤄봐서 아는데 이 동영상만 보고 자연어처리를 공부하려니까 하나도 이해가 안되는데 정상임까??.. 자연어처리에 대한 기초지식이 있어야 함까?

@Ebue2 Жыл бұрын

rnn 계열 기초를 보고 오시면 충분합니다.

@hojinius Жыл бұрын

정말 도움 많이 되었습니다. 감사합니다!

@allehalleho 3 жыл бұрын

동빈나님 이 코드를 개인 윈도우 주피터에서 실습하려고하는데 어떤 패키지를 받아야할까요 ㅠ

@mosesgu0415 2 жыл бұрын

동빈님 혹시 BERT 나 GPT도 논문리뷰 가능할까요?

@청풍한수 Ай бұрын

아적린거수불착 ❤❤

@Daechung_live 10 ай бұрын

14:55 트랜스포머 논문 리뷰 시작

@whatseob 3 жыл бұрын

감사합니다

@김진혁-k8e 3 жыл бұрын

사랑합니다

@형-c1g Жыл бұрын

혹시 궁금한 점이 있는데 이메일을 알려주실 수 있나요?

@안떼루쏭 Жыл бұрын

ChatGPT의 T, BERT의 T... Transformer의 세상이네요.

@gmlssns5859 3 жыл бұрын

동비니형 짱

@pocco8388 2 жыл бұрын

26:20 Multihead attention

@eeksanwl 4 жыл бұрын

와 설명 진짜 잘해주시네요.. 감사합니다.

@강한얼-p3j 3 жыл бұрын

친절한 설명 너무너무 감사합니다!!

@yongsikjin3217 3 жыл бұрын

목소리 진짜 목소리 인가요???

@iiiiaaaa4548 3 жыл бұрын

감사합니다감사합니다감사합니다감사합니다감사합니다감사합니다감사합니다감사합니다감사합니다감사합니다감사합니다감사합니다감사합니다감사합니다감사합니다감사합니다감사합니다

@데이지-v4q 2 жыл бұрын

어렵워 .. ㅠ

@junumoon7022 2 жыл бұрын

개쩐다...

@moonyounglee7910 2 жыл бұрын

14:55

@zn4q3oi18zx 3 жыл бұрын

22:43

@임기령-p9k 8 ай бұрын

57:18

@brown8889 4 жыл бұрын

3등 가즈아

@주섬주섬-j8k 3 жыл бұрын

나동빈!나동빈!나동빈!나동빈!나동빈!나동빈!

@ai_jonyuk 3 жыл бұрын

48:31

@marcellinusst.6951 4 жыл бұрын

2등은 못참지

@sblim9245 Жыл бұрын

목소리 이선균 닮음