딥러닝 트랜스포머 멀티헤드어텐션, Multi head attention, transformer, deep learning

Рет қаралды 3,354

코드없는 프로그래밍

Күн бұрын

Пікірлер: 10

@간호과-d1x 10 ай бұрын

헐 대박... 슨생님 강의는 국민 필수 수강 강좌로 지정해야 해여... 충격 그 자체 .. 감사합니당 ~

@yongwookim1 5 ай бұрын

감사합니다😮😮

@choigawoon 5 ай бұрын

제대로 이해했는지 모르겠는데, 원래 토큰을 표현하는 임베딩 벡터를 나눠서 분산처리하고 합쳤는데도 잘 동작해서 이렇게 하는건가요? self attention그대로 학습하는게 더 의미가 맞는거같은데, feature를 다 다르게 학습한다는 부분을 이해를 못하겠어요. CNN은 r,g,b,a채널을 나눠서 처리하니까 각기 독립된 채널의 의미를 학습할거같은데... token에 대한 임베딩도 동일하게 이해를 해야할까요?

@코드없는프로그래밍 5 ай бұрын

안녕하세요. self attention은 하나의 feature 에만 집중을 하게 될겁니다. 때문에 멀티헤드 어텐셔을 가짐으로서, 여러 feature를 동시에 본다라는 개념입니다. 마치 CNN에서 channel을 여러개 갖는 CNN layer를 갖는것과 같다고 보시면 됩니다. CNN layer의 output이 하나라면 하나의 feature만 보는것이고 4개라면 4개의 feature를 보는것 처럼요. 또 궁금한점 있으시면 질문주세요. 감사합니다

@사물탕 4 ай бұрын

@@코드없는프로그래밍 저도 이부분이 좀 헷갈려요. 네개를 붙이는 이유가 직관적으로 잘 와닿지가 않아요. 심지어 네개 다 같은 거 아닌가요?

@사물탕 4 ай бұрын

Transformer에서용

@코드없는프로그래밍 4 ай бұрын

@@사물탕 CNN에서 다른 채널들에 비유하시면 됩니다. 각채널마다 집중하는 feature들이 다르듯이, multi head attention에서는 각 head마다 집중하는 feature들이 다릅니다

@방울이는방울방울-z2s 22 күн бұрын

저도 이 부분이 궁금해서 찾아봤는데, 임베딩 벡터를 각각의 헤드(어텐션 단위)로 구분할 때에 연산하는 가중치들이 달라집니다.(의미와 목적이) 1번 헤드는 가까운 단어들간의 문맥과 관계를 살펴보는 목적의 어텐션 처리, 2번은 멀리 떨어진 단어들간의 관계를 살펴보는 어텐션 처리, 3번은 문법적 패턴확인을 위한 어텐션 처리 등과 같이 각각의 쿼리 키 밸류를 만들 때에 쓰는 가중치가 헤더마다 다릅니다. 아마 그래서 일반적으로 임베딩 벡터에 포지셔널 인코딩을 포함시켜서 위치정보를 저장한 이후 어텐션을 진행하는거 같습니다. 멀티헤드어텐션(병렬로 여러 연산을 수행, 여러 문맥 파악)과 멀티레이어어텐션(직렬 연산을 여러번 수행, 심화된 추론)은 그 목적이 조금은 다를거 같구요

@limyeunghu 10 ай бұрын

안녕하세요 노코프님 제가 그래픽스를 공부하는데 c++이 필요하여 공부하려합니다 멤버쉽을 가입하여 올리신 영상들을 오래된 순서로 하나하나 보면 될까요 ? 아니면 추천하시는 방법이 있나요

@코드없는프로그래밍 10 ай бұрын

안녕하세요. 채널에 playlist들이 있습니다. 메인페이지 아래 보시면 www.youtube.com/@user-pw9fm4gc7e/featured 모던 C++ 강의, 모던 C++ STLs 강의, 모던C++ Concurrency/Parallel 순서로 들을시면 됩니다.