이렇게 만족해주시니 정말 감사합니다. 다음에는 구독자님 께서 말씀하신 Cross-attention에 대해서도 강의 해드리겠습니다. 감사합니다 😀
@함차장22 күн бұрын
비전공자인데...ㅎㅎ 신선하네요. Ai공부하다 여기까지왔습니다. 못알아든겠어요. ㅎㅎ
@objects76725 ай бұрын
이헤하기 쉽게 설명 잘하시네요..😊
@codingopera99455 ай бұрын
이해가 잘 되셨다니 정말 뿌듯하네요 ㅎㅎ. 앞으로도 많은 관심 부탁드리겠습니다! 감사합니다 :)
@JAMESYUN-e3t10 күн бұрын
가중치와 편향은 사물에 비유 한다면 가중치는 저울, 편향은 보트의 조정타(wheel)에 해당 된다라고 할 수 있는지요.
@로-z8n7 ай бұрын
좋은 강의 감사드립니다!! 자세하게 설명해주셔서 정말 큰 도움이 되었어요. 혹시 나중에 가능하시다면 vision 쪽으로도 강의 올리실 생각있으실까요?
@codingopera99457 ай бұрын
도움이 되셨다니 정말 다행입니다. 네 vision쪽도 관심있어서 해보려 합니다. vision쪽에서 궁금하시거나 아시고 싶으신 분야를 말씀해주시면, 참고하도록 하겠습니다!
@송인회-u2f6 ай бұрын
좋은 강의 감사합니다. 강의를 보던 중 궁금점이 생겨 질문드려봅니다!! 13:43 벡터의 차원 4는 어떻게 산정이 된 것일까요? 제가 알고 있는 바로는 입력 문장에서 각 토큰화된 단어의 개수를 차원으로 선정하는 것으로 알고 있었는데 i am student라면 차원이 3이 돼야 하는 것이 아닌가요? 15:41 단어의 순번이 짝수인 것은 수식의 PE(pos, 2i)로 결정되니 i=0,1로 대입해야 하는 것이 아닌가요?
@codingopera99456 ай бұрын
@@송인회-u2f 강의를 좋게봐주셔서 정말감사합니다. 질문에 대한 답변은 다음과 같습니다. 1. 여기서 벡터의 차원은 단어의 개수를 의미하는것이 아니라 사용자가 임의로 설정하는 값입니다. 때문에 4는 예시를 들기위해 사용한 임의의 값입니다. 2. Transformer 논문의 표기가 애매한 부분이 있어서, 이렇게 이해하시게 이해가 됩니다. 그러나 저자의 의도는 i를 홀수, 짝수로 나눈 의미이니, 영상에서 설명한대로 이해하시면 됩니다. 또다른 궁금한 사항이나 공유할 사항있으시면 언제든 댓글, 좋아요 남겨주세요!
@Asion-Vision3 ай бұрын
정말 좋은 강의라는 생각이 드네요! 정말 감사합니다. 인코더, 디코더 개념을 전화에 비유한 것이 인상적이네요. 굉장히 직관적인 설명이었습니다. 정확한 이해가 필요한 부분이 있어 질문드립니다. 9번 슬라이드에 대한 부분인데요, 1. 범위가 [-1, 1] 이기 때문에 안정적이다 라는 부분은 말씀하셨 듯이 정규화가 되어 있다라고 이해했습니다. 그런데 정규화라는 건 선형함수에서도 최소, 최대값으로 나누어주면 되지 않나? 라는 의문이 들었습니다. 2."주기함수로 글자수에 상관없음" 에서 Length를 글자수로 표현하신 것으로 추측되는데, 글자 수라고 하니까 헷갈리네요. word 개수라고 이해하면 될까요? 또 뒤에 이어지는 설명에서 홀수, 짝수번째 벡터 요소마다 sin, cos을 다르게 적용하는 이유가 값의 겹침을 최소화하기 위해서라고 하는데, 이는 2번 설명과 모순되는 것이 아닌가 생각했습니다. 이에 대해 의견 여쭙고 싶어서 질문드립니다.
@codingopera99453 ай бұрын
@@Asion-Vision 안녕하세요 제 영상에 많은 관심을 주셔서 정말 감사드립니다. 질문하신 내용에 답변은 다음과 같습니다. 1. 네 맞습니다. 정규화를 하면 되는 문제이지만, 삼각함수를 사용하면 정규화에 상관없이 애초에 [-1,1]로 범위가 설정되기 때문에 안정적입니다. 결측치에 대한 영향이 없죠. 2. 주기함수는 무한히 긴 글을 인풋으로 사용할 수 있지만 문제는 주기가 2pi마다 반복됩니다. 정보가 중복되는 것이지요. 이를 해결하고자 논문에서는 sin, cos을 번갈아가며 사용하였습니다. 질문에 대한 답변이 되었으면 합니다. 감사합니다 😀
@김민성-u2z2 ай бұрын
책으로 공부하면서 해결되지 않던 이해를 세세하게 다뤄주시니 정말 감사합니다. 그래도 더 세세하게 알고싶은 마음에 질문을 남겨봅니다. 임베딩 벡터 사이즈를 결정하는 기준은 따로 없나요? 카카오톡 오픈채팅방에 들어갈 기회는 없어진 건가요?
@codingopera99452 ай бұрын
제가 도움이 되었다니 정말 뿌듯합니다. 우선 질문에 답변을 드리자면 1. 임베딩 벡터 크기는 하이퍼파라미터 입니다. 즉 개발자가 설정하는 값입니자. Transformer 논문에서는 512로 설정되어 있을 겁니다. 2. 현재 오픈카카오톡방 이용가능 합니다. 많은 분들이 이미 참여하셔서 활동중이시니, 영상 설명 하단 링크를 통해 참여해주시면 감사하겠습니다😊
@didtn19864 ай бұрын
안녕하세요 트랜스포머 이해하는데 많은 도움이되고 있습니다 감사합니다 ㅠㅠ 근데 질문이 하나있는데요 Positional encoding 설명부분에서 I am student 를 계산할때 I는 공식대로 맞는것 같은데요. am의 경우 pos=1,i=0,dmodel=4이기에 sin(1)이 되어서 0.017 아닌가요? 왜 0.84인지 모르겠어요ㅠㅠ
@codingopera99454 ай бұрын
안녕하세요! 질문주셔서 감사합니다. sin(1rad)으로 rad(라디안) 단위로 계산해서 그렇습니다! 도움이 되셨으리라 생각됩니다. 감사합니다!!
@5..4..3..이..일준7 ай бұрын
의미 벡터랑 위치 백터랑 orhogonal하게 유지가 되어야 위치의 정보가 보존될 거 같은데요. 의미랑 위치는 완전히 다른 차원의 문제이니까요. 그런데 element를 그냥 더해주는 방식으로 하면 정보가 희석되지 않나요? 그게 이해가 되지 않습니다. 미리 감사드려요.
@codingopera99457 ай бұрын
저도 완전 동감하는 부분입니다. 그래서 많이 알아봤는데 구글리서치측 입장은 둘을 더해서 정보가 섞여도 상관이 없다는 입장입니다.
@codingopera99457 ай бұрын
이러한 문제를 보완하고자 현재 나오는 트랜스포머 후속작들은 위치와 의미를 다른 네트워크로 분리한 모델들도 나오는 중입니다. 질문 해주셔서 감사합니다 😀
@jslee7866 ай бұрын
좋댓구알 완료
@codingopera99456 ай бұрын
@@jslee786 좋댓구알 감사합니다 😀😃
@shinhyunjune22047 ай бұрын
output이 입력으로 들어가는데 한영변역으로 치면 "나는 소년이다"도 입력으로 들어가고 "i am a boy"도 입력으로 들어가면 얻는게 뭔가요...?
@codingopera99457 ай бұрын
아주 좋은 질문이십니다. 말씀해주신 내용은 모델이 학습을 할때 한국어, 영어를 모두 알려주는 것입니다.(한영번역의 경우) 이후 추론과정에서는 한국어 또는 영어 둘중 하나만 모델에 들어가서 번역이 되는 것이지요.
@codingopera99457 ай бұрын
저희도 어떤걸 배울때, 문제와 정답을 같이 비교하며 배우는데, 이 원리와 같다고 생각하시면 됩니다 😀
@shinhyunjune22047 ай бұрын
그럼 추론에서 아웃풋에 있는 화살표 방향이 바뀐다고 보면되나요? 아님 위에 probabilities와 함께 나오나요?
@codingopera99457 ай бұрын
@@shinhyunjune2204 좋은 질문이십니다. 추론에서는 화살표 방향이 바뀌는 것이 아니라 Transformer 구조에서 Outputs가 들어가지 않고 위에 Output Probabilities가 바로 나와서 추론하는 구조입니다.