[딥러닝] 1-2강. 경사 하강법 vs Newton's method

No video

[딥러닝] 1-2강. 경사 하강법 vs Newton's method | 선형 회귀 풀이

Рет қаралды 26,743

혁펜하임 | AI & 딥러닝 강의

Күн бұрын

Пікірлер: 82

@hyukppen Жыл бұрын

혹시 이 강의가 조금 어렵게 느껴지시나요? 그동안 갈고닦은 강의력으로 4년 만에 새로운 딥러닝 강의를 올리게 되었습니다! 지금 보고 계신 영상보다 훨씬 더 쉽고, 더 꼼꼼하게 전달하는 강의니까 아래 재생목록 저장해두고 딥러닝 공부 시작해 보세요! < Easy! 딥러닝 재생목록 > kzbin.info/aero/PL_iJu012NOxdw1jc3KEo8Mq5oD5SXKhLu -------------------- 📢 혁펜하임의 딥러닝 마스터 커리큘럼! LEVEL 1 - Easy! 딥러닝 hyukppen.modoo.at/?link=2n1a6p7t LEVEL 1 - 인스톨! 파이토치 hyukppen.modoo.at/?link=131k3k7g LEVEL 2 - Legend 13 hyukppen.modoo.at/?link=5db82s6p LEVEL 2 - TTT: To The Transformer hyukppen.modoo.at/?link=21c4dj8y LEVEL 3 - ATT: After The Transformer hyukppen.modoo.at/?link=2mcbufeg

@user-ok9em3oo8i 4 жыл бұрын

덕분에 엄두도 못내던 분야를 공부할 수 있게된 것 같습니다 항상 좋은 강의 해주셔서 감사드립니다!

@user-se9pt3gi3r 4 жыл бұрын

혁펜하임님 덕분에 똑똑해지고있어용 감사합니다ㅎㅎㅎㅎ

@beomjoon 3 жыл бұрын

신호 및 시스템 수업 들으면서 중간 기말 공부하다가.. 꾸준히 구독 중 입니다. 멋져요 형

@joshualee0021 3 жыл бұрын

안녕하세요 갓펜하임님. 신시도 많이 도움되었는데, 선형회귀도 이렇게 수식적으로 잘 풀어주시는 강의는 또 처음 보는 것 같습니다. 기존 머신러닝 내용을 알지만, 추가로 많이 도움이 되네요. 항상 감사합니다! 강의 수강중 2가지 질문이 생겨서 문의드리려고 합니다. Q1) 7분 10초 경에 x = [ a b ]^T를 equal by definition이라고 쓰셨고, [ df/da df/db ] 에 대해서도 설명을 진행하셨는데요. x,y는 우리가 이미 아는 데이터이고 f(x)=ax+b라는 f함수 모델의 a,b를 학습하는 것으로 압니다. 그리고 Gradient Descent 과정은 loss를 최소화하기 위해 a와 b값을 변화시켜가면서 찾는 것이구요. 따라서 x = [ a b ]^T가 아니라, 이미 정의한 A = [ a b ]^T가 되어야 하는 것이 아닌가 싶습니다. 만약 그렇다면 바로 뒤에 노란색으로 쓰시는 부분의 첫번째 항은 df/(dx)^T 가 아니라 df/(dA)^T여야 하고, 두 번째에 쓰시는 항이 dx가 아니라 dA가 되어야 할 것 같습니다만..... 혹시 제가 혁펜하임님의 설명을 어디를 잘못 이해하고 있는지를 알려주시면 정말 감사하겠습니다! Q2) 9분 58초경에 F.O라고 쓰시는데, 'First Order로 구합니다' 라고 말씀하시는게 맞으신지요?? 그리고 이게 어느 과목에 해당 되는 내용인지 여쭙고자 합니다.ㅜㅜ 공업수학 내용 같기는 한데, 해당 내용을 손 놓은지 너무 오래 되어서 잘 모르겠네요.ㅠㅠ 항상 좋은 강의 해주셔서 다시 한번 감사합니다!^^

@hyukppen 3 жыл бұрын

질문 감사합니다. ㅎㅎ Q1) training data는 (xi,yi)로 표기했고 1-1강에서 A 가 [x1,1 ; x2,1 .. ] 이런식으로 xi들을 집어넣어놨습니다. 그러고나서 내가 구하고 싶은 a,b를 x vector로 다시 표기했습니다. 이 부분에서 혼동을 드린 것 같네요 ㅠㅠ Q2) 넵 1차입니다. dx^2 같은 존재는 생각할 가치도 없기 때문에 저렇게 써놓은 겁니다 ㅎㅎ 미분에 대한 내용이 어떤 과목에 해당되는 건가 여쭤보신 거라면 사실 고등학교 교과서에 나올겁니다. F.O. 라는 표기는 없지만 분명 고딩때 다항함수의 미분을 증명하기 위해 f(x+dx)-f(x) 를 구했을 것이고 거기엔 분명 dx^2 이상의 항들이 있었을 것이고 dx로 나눠서 dx->0 으로 보내기 때문에 dx^2 이상의 애들은 날아갔고, x^2의 미분이 2x임을 알 수가 있었죠~

@itwipsy17 3 жыл бұрын

머신러닝 이론분야 기초를 제대로 독학하려는데 도움이 많이 됩니다.

@user-oo6fn4ty5x 3 жыл бұрын

수식으로 설명을 너무 잘해주시네요 ㅎㅎㅎ 도움 많이됐습니다!!

@hyukppen 3 жыл бұрын

감사합니다!!

@iroiro__ 9 ай бұрын

16:37 이지이지이지잊이지랄 아니 이런 짓ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ

@wr925 4 жыл бұрын

혁펜하임님 영상 정말 잘 보고 있습니다. 이 것을 모델링하다가 궁금한 점이 생겨서 이렇게 댓글 남깁니다. (Y - AX)^T (Y - AX) 를 최소화하는 과정을 할 때에 2*(Y - AX)^T A가 나온다고 설명하셨는데 만약에 X가 4*4 행렬이고 A가 1*4인 행벡터라고 하면 영상내의 설명처 (Y - AX)^T AdX가 스칼라가 나오지 않고 4 * 4의 행렬로 나오는데 중간에 생각이 난건데 4 * 4 를 4등분해서 1*4짜리로 나눠서 네 번을 계산해서 (Y - AX)^T AdX 이거를 네개 만들어서 쌓으면 되는 거죠?

@hyukppen 4 жыл бұрын

좋은 질문 감사합니다! 만약 X가 4*4 행렬이고 A가 1*4인 행벡터라면 Y도 1*4겠죠? 그러면 Y-AX는 1*4, (Y - AX)^T (Y - AX)는 4*4가 됩니다. 무조건 minimize할 cost function은 스칼라여야합니다. 2*2짜리 행렬을 minimize한다? 이상하죠! 어떤 대소관계를 말할수 없기 때문에 cost function을 다르게 잡아야 합니다. (스칼라가 되게끔)

@wr925 4 жыл бұрын

@@hyukppen 감사합니다! 덕분에 늘 큰 도움이 됩니다.

@yapyapkku_ing6416 Жыл бұрын

현재 인공지능을 공부하고 있는 고3입니다. 특성화고를 다니면서 공부를 하고 있지만 역시나,,,, 수학이 많이 어렵네욬ㅋㅋㅋㅋㅋㅋ

@user-cj1iy3rk6q 5 ай бұрын

후 감사합니다!

@bansin175 2 жыл бұрын

명확한 설명 너무 좋습니다.

@user-df4zy2wj4c 3 жыл бұрын

진촤.... 당신은... 한 줄기의 빛...........🙏

@shnam1644 4 жыл бұрын

정말 잘 보고 있습니다. 훌륭한 강의 감사합니다🙇

@skim4877 2 жыл бұрын

이해가 쉽게 가는 설명 감사드립니다. 만약 역으로 이 문제가 x와 y라는 입출력 데이터가 주어진 regression 문제라고 생각하면 x에 대한 최소화가 아니라 A라는 행렬에 대한 최소화 문제라고 생각할 수 있는 것인지요?

@hyukppen 2 жыл бұрын

영상에서도 x,y 가 주어진 regression 문제입니다! A에 입력을 1,x,x^2과 같이 넣었고 x벡터에 a,b와 같은 파라미터를 넣어놔서 헷갈리셨던 것 같습니다 ㅜㅜ

@user-ke5tu6ys7z 2 жыл бұрын

좋은 강의 항상 감사합니다.^^ 아직 초보라서 우둔한 질문을 드리게 되네요. 1. 6:56, 독립변수가 두개 이상일 때부터, 함수의 기울기를 그라디언트라고 부르는군요. f를 전미분 하고, 벡터폼으로 나타낸 후, dx 앞에 있는 df/dx가 그라디언트라면, 전미분과 그라디언트는 다른 것이겠군요. 2. 7:20, 그라디언트를 구하기 위해 전미분을 해야하고, 그러면 각각의 독립변수들에 대해 모조리 편미분하는 방법해야한다고 이해했습니다. 박사님께서는 이 방법말고 편미분을 하지 않고, 함수 f의 증분을 구해서 dx앞의 수를 바로찾는 유용한 방법을 알려주셨는데요. 제가 재대로 이해한 건가요? 이 방법을 따로 부르는 명칭이 있나요? 이미 제가 말했을 수도 있지만, 이 방법의 의의가 뭔가요?

@hyukppen 2 жыл бұрын

1. 전미분이 df를 의미하나요? 2. 행렬과 벡터로 이루어진 식에서 바로 미분 가능합니다. Ax+b 를 x로 미분하는 것은, x가 스칼라면 ax+b 미분은 숨 쉬듯 쉽지만, 벡터면 정말 어렵죠 Ax+b 를 싹다 풀어 헤쳐서 쓴 다음, x 각 원소로 편미분 일일히 해서 나열 해야합니다 ㅎㅎ 이 방법은 대학원생분들에게도 그다지 잘 안 알려진 것 같은데, 한번 익혀 놓으시면 진짜 "미친 방법" 임을 깨닫게 되실 겁니다 ㅎ

@user-ke5tu6ys7z 2 жыл бұрын

1. 네, 전미분은 df 라고 알고 있습니다. 미분이면 df/dx이지만, 증명과정 중 식이 지저분해보여서 dx를 양변에 곱해줬고, 결국엔 df 가 전미분의 일반적인 형태라고 알고 있습니다. 2. 실제로 코드로 구현할 때에도 효과가 있나요? 아니면 그냥 손수 계산, 해석 상에 있어서 유용한 건가요?

@hyukppen 2 жыл бұрын

@@user-ke5tu6ys7z 코드 구현할 땐 이런거 알 필요없죵 ㅎㅎㅎ 알아서 미분 해주잖아요!

@joo1141 2 жыл бұрын

질문이 있습니다 혁펜하임님!! Learning Rate를 적절히 조절하면 된다 말씀하셨는데, 그렇다면 대부분의 경우에서 Learning Rate를 아예 작은 수로 정하고, 그만큼 epoch를 많이 늘리면 제일 정확한 딥러닝 방법이 되지 않나요?

@hyukppen 2 жыл бұрын

만약 뭔가 하나 학습하는데 1년이 걸린다면 그건 너무 오래 걸리는 거겠죠? 또, 그렇게 1년 걸려 학습했는데, 어차피 local minimum을 찾은 거기 땜에 그게 좋으리란 보장도 없습니다 ㅠ 그리고 LR을 작게 해서 좋아지는 것보단 다른 것들을 조절하는 것이 더 효과적이기 때문에 아예 작은 값으로 잡는 것은 좋은 전략이 아닐 거 같다는 생각이 듭니다!

@joo1141 2 жыл бұрын

그렇군요 답변 감사드립니다!!

@bigbigpark 2 жыл бұрын

좋은 강의 감사합니다. Gradient descent는 한 점에서의 gradient를 구한 후 내려갈 방향을 정해서 거기다가 learning rate를 곱한다. 그리고 다음 내려갈 점인 x_k+1를 iterative하게 해를 구하는 방법이라 이해를 했습니다. Gradient 수식을 보니 2 A^T (y - A x_k)는 2x1 열벡터 같은데요? 벡터라 크기와 방향이 있을 거 같습니다. 그러면 얼만큼 내려갈 지는 learning rate 알파와 gradient 벡터의 크기에 따라 정해지는 건가요? 아니면 알파만 조절하여도 내려가는 step size를 조절할 수 있는 지 궁금합니다

@hyukppen 2 жыл бұрын

넵넵 맞습니다! alpha 뿐 아니라 gradient의 크기도 곱해져서 step size가 결정이 됩니다. 최소점에 가까울 수록 미분이 알아서 작아져서 알파를 상수도 놔도 수렴을 잘 합니다 ㅎㅎ 하지만 알파를 점점 줄여나가는 행위를 하기도 합니다~

@bigbigpark 2 жыл бұрын

@@hyukppen 딥러닝 공부 시작했는데 좋은 강의 감사합니다 :)

@koj2728 4 жыл бұрын

14:46 에 그라디언트 값을 다르게 더해주셨는데 순서를 바꿔도 괜찮은건가요? x가 1x2 행렬이니까 덧셈을 하려면 이에 맞춰주려고 transpose하신거죠?

@hyukppen 4 жыл бұрын

x가 2x1 vector인데 구한 gradient식은 1x2라서 transpose해야 한다고 자막을 달았었습니다 ㅎㅎ

@user-to7yj9wf6n 3 жыл бұрын

사랑합니다

@user-qp1ln2yb1i 3 жыл бұрын

면접 준비할 때 많이 참고하고 있습니다!! 감사합니다!

@hyukppen 3 жыл бұрын

오오 면접 화이팅!! 응원하겠습니다 ㅎㅎ 잘되면 또 소식 들려주세요~!

@EnterAName650 3 жыл бұрын

라이브 때 그분이다! ㅋㅋㅋㅋ

@user-qp1ln2yb1i 3 жыл бұрын

@@EnterAName650 반갑습니다ㅎㅎㅋㅋㅋㅋㅋ

@user-qe9db6xj9o 4 жыл бұрын

안녕하세요 !! 잘 보고 갑니다 ㅎㅎ 궁금한 게 있는데 학부생 상대로 재능기부 하시는 건가요 ??

@hyukppen 4 жыл бұрын

도움이 되고 싶다는 것이 큰 이유이고 제가 알게 된 것을 영상으로 정리해놓으면 저도 기억안날때 보고 그러기도하고.. 여러가지 장점이 있어가지구요 ㅎㅎ

@user-ux6xt8he3m 3 жыл бұрын

아주 좋은강의 정말정말 감사드립니다. 그런데 그래디언트가 -2 * ( y - Ax)^T * A로 계산되면 내부에 다시 구하고자 하는 변수 x(a,b)가 들어가게 되는데, 이부분이 이해가 잘 되질 않습니다. 아~ 다시생각해보니 현재 임시로 설정한 x(a,b)값을 넣어준다는 의미 같은데 제가 생각한것이 맞을까요?

@hyukppen 3 жыл бұрын

넵 그래서 iteration이 필요한겁니다. update하기 전을 xk (k-th iteration), update한 후를 xk+1 로 표기했습니다. xk에서의 미분이 필요하므로 그래디언트 안의 x도 xk가 되어야겠죠! 그걸 깜박해서 15:33 에 자막 추가했습니다. ㅎㅎ 죄송합니다!

@user-ux6xt8he3m 3 жыл бұрын

@@hyukppen 네 감사합니다 ~

@user-ux6wj7lp1f 3 жыл бұрын

14:50분에 수정자막을 달아주셨는데요. 칠판에 적혀진 -2(y-Ax)TAdx는 스칼라로 나오고 전개상의 문제가 없어보이는데요. (y-Ax)T:(1x10), A:(10x2), (y-Ax)TAdx: (1*2) -> gradient는 1x2이고 dx: (2x1)이므로 전체는 스칼라(1x1)로 나오게 되는데 어떤 점 때문에 주석을 달아주셨는지 이해가 잘 안가는데 알려주실수 있을까요?

@hyukppen 3 жыл бұрын

x가 2x1 vector인데 구한 미분식(=(df/dx^T))은 1x2라서 transpose (=(df/dx)) 해야 update 할 때 벡터 덧셈이 되가지구 달았었습니다!

@user-dd8em2nn2h 2 жыл бұрын

(y실제값 - y 예측값)^T(y실제값 - y 예측값) 으로 이해해도 될까요? (y-ax)보다 이쪽이 이해가 더 잘가는데 이렇게 이해해도 무방한걸까요..?

@hyukppen 2 жыл бұрын

넵넵 무방합니다. A에다 입력들을 세로로 쭉 쌓은 거고 x가 인공신경망의 weight라고 보면 됩니다~!

@user-xb5dv2vi9m 3 жыл бұрын

은근히 디테일 해서 이해가 잘가네요... 중간에 gradient 가 1x2 라서 transpose 한다고 자막에 나와있는데 전치를 그냥 씌워도 괜찮은 건가요?

@hyukppen 3 жыл бұрын

gradient는 보통 열 벡터로 표현하더라구요 미분은 행벡터로 구해졌기 때문에 열 벡터 x를 업데이트 하는 식으로 맞춰주기 위해 전치를 씌워주어야합니다

@user-xb5dv2vi9m 3 жыл бұрын

@@hyukppen답변 감사합니다. 혹시 라그랑지 관련 강의도 있나요?

@hyukppen 3 жыл бұрын

@@user-xb5dv2vi9m 아직은 없지만 최적화 과목에서 올라갈 예정입니다!

@user-xb5dv2vi9m 3 жыл бұрын

@@hyukppen 하나만 더 여쭤보겠습니다. 제가 직장 다니는데 혹시 오프라인으로 강의같은 것도 하시나요? 아니면 과외라도…

@hyukppen 3 жыл бұрын

@@user-xb5dv2vi9m 저도 회사원인지라 ㅠㅠ 유튜브에서만 활동하고 있습니다 ㅎㅎ

@KangHS0520 4 жыл бұрын

안녕하세요ㅎㅎ 영상 18분쯤에서 결국에는 그 다음 이동한 x값을 찾고 싶은거고 그래서 일단 미분한 그래프 먼저 그린다음에 삼각형 상에서 밑변의 길이를 찾고 싶은건데 그 x값을 y 곱하기 (y/x)의 역수를 곱해서 구하는거고 y는 미분한 함수의 함숫값이니까 f', 삼각형의 기울기의 역수는 미분한 함수의 x에서 미분값의 역수니까 1/f" 이렇게 이해하는게 맞을까요?

@hyukppen 4 жыл бұрын

좋은 코멘트 감사합니다! 넵 말씀하신 것이 다 맞습니다. 말하자면, 삼각형을 그렸을 때 밑변의 길이만큼을 빼는것을 반복하다보면 원래 함수의 최소점으로 다가가게되는 그런 원리입니다 ㅎㅎ

@aimakeworldhappy 2 жыл бұрын

형 나이는내가 형이겠지만 형이라 부를게요 딥러닝 제대로 공부하고 싶어서 퇴사했어요 형 정주행 할게요

@hyukppen 2 жыл бұрын

응원하겠습니다

@hyukppen 2 жыл бұрын

현장강의도 있으니 나중에 시간되면 한번 봬요 ㅎㅎ

@aimakeworldhappy 2 жыл бұрын

감사합니다 🥺꼭 찾아뵙겠습니다!!

@msj3756 2 жыл бұрын

8:33 "만약, dx^2을 가지고 있다면, dx로 나누어서 0으로 보내기 때문에 사라진다."가 무슨 뜻인지 잘 모르겠습니다. 혹시 수식적으로 서술해주실 수 있으신가요?

@hyukppen 2 жыл бұрын

lim dx->0 dx = 0 즉, dx의 극한값이 0이기 때문입니다~

@msj3756 2 жыл бұрын

@@hyukppen first order는 dx로 나누어 약분되므로 살아있게 되고, second order는 dx로 나누어도 dx하나가 남게 되므로 극한을 취하면 0이 된다는 말씀이신가요?

@hyukppen 2 жыл бұрын

@@msj3756 넵 second order 이상은 사라집니다. 놀랍게도 이것이 고등학교 때 x^2 미분이 2x 인거 증명할 때 이미 나온 원리입니다. ㅎㅎ

@msj3756 2 жыл бұрын

@@hyukppen 아 답변 감사드립니다. 혹시 아래에 달은 댓글도 답변해주실 수 있으신가요?

@hyukppen 2 жыл бұрын

@@msj3756 네엡! 답이 늦어 죄송합니다. 질문 남겨주셔서 감사해요~ ㅎㅎ

@msj3756 2 жыл бұрын

13:21 Gradient가 왜 1X2가 되는지 잘 모르겠습니다

@hyukppen 2 жыл бұрын

6:28 에서와 같이 미분을 행벡터로 정의했기 때문입니다! ㅎㅎ

@user-ku5zx5pe6i 3 жыл бұрын

선생님 혹시 강의하시는데 사용하는 책이 따로 있으신가요?

@hyukppen 3 жыл бұрын

아뇨 그냥 제 나름대로 생각해낸 커리큘럼입니다.

@user-ku5zx5pe6i 3 жыл бұрын

그렇군요..! 지금 보는 책이랑 보면서 같이 잘 들을게요 ㅋㅋ

@hyukppen 3 жыл бұрын

@@user-ku5zx5pe6i 넵 감사합니다 ㅎㅎ

4 жыл бұрын

Brilliant work! Keep it up! Would you like to be KZbin friends? :]

@2_ice460 2 жыл бұрын

13:16 에서 저 행렬이 1×2가 나와야 하는데 옆에 고친 식은 2×1행렬 아닌가요??

@hyukppen 2 жыл бұрын

(y-Ax)^T * A 말씀하시는거죠?

@2_ice460 2 жыл бұрын

@@hyukppen 2A^T(y-Ax)에서 A가 n×2 X가 2×1 Y가 n×1 이라면 2×n n×1해서 2×1행렬인데 저기 전체가 스칼라이고 dx가 2×1행렬이니 1×2행렬이 나와야할거 같은데 저거 해보니까 2×1이 나와서요.. 어디가 잘못된걸까요

@hyukppen 2 жыл бұрын

@@2_ice460 x 벡터도 2x1 짜리 입니다! ㅎㅎ

@2_ice460 2 жыл бұрын

@@hyukppen 죄송한데.. 어떻게 1×2행렬이 되는지 설명해주실 수 있나요..?

@hyukppen 2 жыл бұрын

@@2_ice460 미분한 결과가 어떻게 1x2가 되었는지 인거죠? 그건 4:11 섹션을 보시면 될 것 같습니다! 애초에 미분 정의를 행벡터로 했습니다 ㅎㅎ

@kennyk8126 2 жыл бұрын

6:05 에서... 2개의 변수의 미분은 그냥.. gradient라고 하는데... 왜 그렇게 되는지 잘 모르겠습니다 ㅠ.ㅠ

@hyukppen 2 жыл бұрын

gradient의 정의 자체가 단순히 각 변수에 대해 편미분해서 쌓은 것입니다 ㅎㅎ