자연어 처리 트랜스포머 1강(Embedding, Positional Encoding)

Рет қаралды 7,126

Coding Opera Korea

Күн бұрын

Пікірлер: 27

@LEE_JOHN_LEE 7 ай бұрын

지금까지본 transformer 강의중 최고입니다. 진짜 설명잘하시네요. 구독 박습니다

@LEE_JOHN_LEE 7 ай бұрын

Cross-attention도 다뤄주세요.

@codingopera9945 7 ай бұрын

이렇게 만족해주시니 정말 감사합니다. 다음에는 구독자님 께서 말씀하신 Cross-attention에 대해서도 강의 해드리겠습니다. 감사합니다 😀

@함차장 22 күн бұрын

비전공자인데...ㅎㅎ 신선하네요. Ai공부하다 여기까지왔습니다. 못알아든겠어요. ㅎㅎ

@objects7672 5 ай бұрын

이헤하기 쉽게 설명 잘하시네요..😊

@codingopera9945 5 ай бұрын

이해가 잘 되셨다니 정말 뿌듯하네요 ㅎㅎ. 앞으로도 많은 관심 부탁드리겠습니다! 감사합니다 :)

@JAMESYUN-e3t 10 күн бұрын

가중치와 편향은 사물에 비유 한다면 가중치는 저울, 편향은 보트의 조정타(wheel)에 해당 된다라고 할 수 있는지요.

@로-z8n 7 ай бұрын

좋은 강의 감사드립니다!! 자세하게 설명해주셔서 정말 큰 도움이 되었어요. 혹시 나중에 가능하시다면 vision 쪽으로도 강의 올리실 생각있으실까요?

@codingopera9945 7 ай бұрын

도움이 되셨다니 정말 다행입니다. 네 vision쪽도 관심있어서 해보려 합니다. vision쪽에서 궁금하시거나 아시고 싶으신 분야를 말씀해주시면, 참고하도록 하겠습니다!

@송인회-u2f 6 ай бұрын

좋은 강의 감사합니다. 강의를 보던 중 궁금점이 생겨 질문드려봅니다!! 13:43 벡터의 차원 4는 어떻게 산정이 된 것일까요? 제가 알고 있는 바로는 입력 문장에서 각 토큰화된 단어의 개수를 차원으로 선정하는 것으로 알고 있었는데 i am student라면 차원이 3이 돼야 하는 것이 아닌가요? 15:41 단어의 순번이 짝수인 것은 수식의 PE(pos, 2i)로 결정되니 i=0,1로 대입해야 하는 것이 아닌가요?

@codingopera9945 6 ай бұрын

@@송인회-u2f 강의를 좋게봐주셔서 정말감사합니다. 질문에 대한 답변은 다음과 같습니다. 1. 여기서 벡터의 차원은 단어의 개수를 의미하는것이 아니라 사용자가 임의로 설정하는 값입니다. 때문에 4는 예시를 들기위해 사용한 임의의 값입니다. 2. Transformer 논문의 표기가 애매한 부분이 있어서, 이렇게 이해하시게 이해가 됩니다. 그러나 저자의 의도는 i를 홀수, 짝수로 나눈 의미이니, 영상에서 설명한대로 이해하시면 됩니다. 또다른 궁금한 사항이나 공유할 사항있으시면 언제든 댓글, 좋아요 남겨주세요!

@Asion-Vision 3 ай бұрын

정말 좋은 강의라는 생각이 드네요! 정말 감사합니다. 인코더, 디코더 개념을 전화에 비유한 것이 인상적이네요. 굉장히 직관적인 설명이었습니다. 정확한 이해가 필요한 부분이 있어 질문드립니다. 9번 슬라이드에 대한 부분인데요, 1. 범위가 [-1, 1] 이기 때문에 안정적이다 라는 부분은 말씀하셨 듯이 정규화가 되어 있다라고 이해했습니다. 그런데 정규화라는 건 선형함수에서도 최소, 최대값으로 나누어주면 되지 않나? 라는 의문이 들었습니다. 2."주기함수로 글자수에 상관없음" 에서 Length를 글자수로 표현하신 것으로 추측되는데, 글자 수라고 하니까 헷갈리네요. word 개수라고 이해하면 될까요? 또 뒤에 이어지는 설명에서 홀수, 짝수번째 벡터 요소마다 sin, cos을 다르게 적용하는 이유가 값의 겹침을 최소화하기 위해서라고 하는데, 이는 2번 설명과 모순되는 것이 아닌가 생각했습니다. 이에 대해 의견 여쭙고 싶어서 질문드립니다.

@codingopera9945 3 ай бұрын

@@Asion-Vision 안녕하세요 제 영상에 많은 관심을 주셔서 정말 감사드립니다. 질문하신 내용에 답변은 다음과 같습니다. 1. 네 맞습니다. 정규화를 하면 되는 문제이지만, 삼각함수를 사용하면 정규화에 상관없이 애초에 [-1,1]로 범위가 설정되기 때문에 안정적입니다. 결측치에 대한 영향이 없죠. 2. 주기함수는 무한히 긴 글을 인풋으로 사용할 수 있지만 문제는 주기가 2pi마다 반복됩니다. 정보가 중복되는 것이지요. 이를 해결하고자 논문에서는 sin, cos을 번갈아가며 사용하였습니다. 질문에 대한 답변이 되었으면 합니다. 감사합니다 😀

@김민성-u2z 2 ай бұрын

책으로 공부하면서 해결되지 않던 이해를 세세하게 다뤄주시니 정말 감사합니다. 그래도 더 세세하게 알고싶은 마음에 질문을 남겨봅니다. 임베딩 벡터 사이즈를 결정하는 기준은 따로 없나요? 카카오톡 오픈채팅방에 들어갈 기회는 없어진 건가요?

@codingopera9945 2 ай бұрын

제가 도움이 되었다니 정말 뿌듯합니다. 우선 질문에 답변을 드리자면 1. 임베딩 벡터 크기는 하이퍼파라미터 입니다. 즉 개발자가 설정하는 값입니자. Transformer 논문에서는 512로 설정되어 있을 겁니다. 2. 현재 오픈카카오톡방 이용가능 합니다. 많은 분들이 이미 참여하셔서 활동중이시니, 영상 설명 하단 링크를 통해 참여해주시면 감사하겠습니다😊

@didtn1986 4 ай бұрын

안녕하세요 트랜스포머 이해하는데 많은 도움이되고 있습니다 감사합니다 ㅠㅠ 근데 질문이 하나있는데요 Positional encoding 설명부분에서 I am student 를 계산할때 I는 공식대로 맞는것 같은데요. am의 경우 pos=1,i=0,dmodel=4이기에 sin(1)이 되어서 0.017 아닌가요? 왜 0.84인지 모르겠어요ㅠㅠ

@codingopera9945 4 ай бұрын

안녕하세요! 질문주셔서 감사합니다. sin(1rad)으로 rad(라디안) 단위로 계산해서 그렇습니다! 도움이 되셨으리라 생각됩니다. 감사합니다!!