[딥러닝] 9강. "최고의 17분!" 가장 깔끔한 배치 정규화 (Batch Normalization) 설명

Рет қаралды 20,173

Күн бұрын

Пікірлер: 89

@hyukppen Жыл бұрын

혹시 이 강의가 조금 어렵게 느껴지시나요? 그동안 갈고닦은 강의력으로 4년 만에 새로운 딥러닝 강의를 올리게 되었습니다! 지금 보고 계신 영상보다 훨씬 더 쉽고, 더 꼼꼼하게 전달하는 강의니까 아래 재생목록 저장해두고 딥러닝 공부 시작해 보세요! < Easy! 딥러닝 재생목록 > kzbin.info/aero/PL_iJu012NOxdw1jc3KEo8Mq5oD5SXKhLu -------------------- 📢 혁펜하임의 딥러닝 마스터 커리큘럼! LEVEL 1 - Easy! 딥러닝 hyukppen.modoo.at/?link=2n1a6p7t LEVEL 1 - 인스톨! 파이토치 hyukppen.modoo.at/?link=131k3k7g LEVEL 2 - Legend 13 hyukppen.modoo.at/?link=5db82s6p LEVEL 2 - TTT: To The Transformer hyukppen.modoo.at/?link=21c4dj8y LEVEL 3 - ATT: After The Transformer hyukppen.modoo.at/?link=2mcbufeg

@jihochoi_cs 2 жыл бұрын

와 ... 강의 영상 진짜 잘 봤습니다. 감사합니다.

@user-bi5fz5tr4k Жыл бұрын

너무 잘 들었습니다. 공부하는데 항상 힘이됩니다 ㅎㅎ layer normalization도 설명해주시면 너무 좋을 것 같아 ㅎㅎ

@user-zo2sc5uf9z 2 жыл бұрын

와 정말잘보았습니다!!! 감사합니다. 배치노멀라이즈에 대해 애매했던 것을, '모아서 다시뿌린다' 라고 생각하니 바로 이해할 수 있었습니다

@will-qj8ey 3 жыл бұрын

와 .. 그냥 16분 만에 BN 을 이렇게 깔끔하게... 오랜만에 들어왔는데 정말 잘보고 갑니다!

@0312397 Жыл бұрын

13:00 설명 만세. 감사합니다.

@jaesangsong8599 Жыл бұрын

와 설명이 그냥 미쳤네요 1주일을 해메던걸 17분만에 해결해버리시네....;;;

@jinwoolee5633 3 жыл бұрын

모래알 부분 설명 잘들었습니다 이해가 잘 되네요

@rokieplayer7729 Жыл бұрын

딥러닝, 최적화를 완강했다. 이제 강화학습만 하면 끝난다.... 생성모델도 다뤄주시면 좋겠지만 만들려면 한참 걸릴 테니 내가 공부해야지

@user-sd7fh3ty9i 3 жыл бұрын

제가 본 유튜버중에 이해잘되는거 최고십니다 ㅋㅋㅋ 뭔가 이해하는 방식이 저랑 비슷하신가봐요 실제로 BN 적용하는 코드들 보면 초반에 lr을 크게 잡고 epoch마다 줄여가는 기술이나 dropout도 같이 많이 쓰긴 하더라고요

@kostrawberry 2 жыл бұрын

혁펜하임님 강의들 정주행 중인데 하나같이 다 명강의네요... 학부생인데 도움 많이 받고 있습니다!!

@gmlssns5859 3 жыл бұрын

당신은 정말.... 사랑입니다...

@kihongkim3068 3 жыл бұрын

혁펜하임,,, 짱,,,

@haneulkim4902 2 жыл бұрын

정말 설명이 너무 좋네요! 감사합니다 :)

@user-lo6ci6mj7y 3 жыл бұрын

설명 너무 훌륭합니다..

@code1479 2 жыл бұрын

BN에 대해서는 제가 예전에 독학으로 공부도 해보고 현재 개발중인 모델에도 적용중인데, 강의해주신 것처럼 상세한 의미와 동작에 대한 것까지는 제대로 이해하지 못하고 있었습니다. 강의를 들으니 여태까지 제가 가졌었던 BN에 대한 모든 의문들이 한번에 해소된 것 같습니다. 좋은 강의 정말 감사드립니다. Deep AI Day에도 꼭 참가해보고 싶은데 최근 여건이 안되서 아쉽네요 ㅠㅠ

@hyukppen 2 жыл бұрын

아하ㅠ 요새 바쁘신가요??

@code1479 2 жыл бұрын

@@hyukppen 네 이번주는 출장이랑 제안서 작성 작업같은 잡일이 좀 많아서 바쁜편입니다. 하지만 기회가 된다면 다음번에는 꼭 참가하겠습니다.

@hyukppen 2 жыл бұрын

@@code1479 오옹.. 멋지십니다😆👍👍 넵 다음에 3기 때 뵐수있음 봬요~~!

@gaspell Жыл бұрын

정말 최고의 17분이네요.. 17분이 아깝지 않습니다. 감사합니다

@kellyeunalee 2 жыл бұрын

설명이 예술이십니다. 감사합니다 !

@kwang-jebaeg2460 2 жыл бұрын

와 정말 최고네요 !! 감사합니다

@hongkyulee9724 3 жыл бұрын

너무 감사합니다. 정말 정말 너무 좋은 강의였습니다.

@hyukppen 3 жыл бұрын

감사합니다 ㅎㅎㅎ

@hongkyulee9724 3 жыл бұрын

@@hyukppen 정말 모래알비유랑 감마랑 베타가 왜 추가되는지에 대한 설명에서 감탄했습니다.

@hyukppen 3 жыл бұрын

@@hongkyulee9724 핳 근데 뇌피셜이라..... BN에 대한 해석이 이것저것 많드라구요. 혹시 떠오르는 거 있으시면 댓글로 공유부탁드려요!

@hongkyulee9724 3 жыл бұрын

@@hyukppen 제가 그 정도의 GURU가 된다 꼭 공유하겠습니다.... ㅠ_ㅠ...

@crmn_tv 2 жыл бұрын

와, 정말 설명 잘 하시네요. 영상 감사히 잘 봤습니다.

@hojinius 2 жыл бұрын

도움 많이 됐습니다! 명쾌한 설명이네요~~

@JongbumChoi Жыл бұрын

좋은 강의 감사합니다. 설명 중에 테스트 시에 10:50 설명에서 gamma(x1w1+x2w2+x3w3 + bias) + beta 로 설명해주셨는데, 테스트 할 때도 moving average로 구한 평균과 분산 값으로 Normalize 하는 걸로 이해 했는데요. 그 부부은 편의 상 안 하신 것인지요?

@hyukppen Жыл бұрын

그 설명은 3:29 에서 했습니다! ㅎㅎ

@user-cu2jt6dd3v 2 жыл бұрын

설명 너무 이해가 잘됩니다 ㅎㅎ

@klg7839 2 жыл бұрын

이번 강의도 이해 잘되게끔 설명해주셔서 감사합니다. 궁금한점이 있는데 1. 베타와 바이어스가 동일한 역할을 하고있기 때문에 바이어스는 사용하지 않는다고 이해했습니당 그렇다면 weight도 gamma와 겹치는 것 같은데 weight를 사용하는 이유가 있을까요?? 두번째로 시그모이드를 예시로 하셔서 normalize만 할 경우 선형과 가깝게되기때문에 감마와 베타를 도입하여 학습한다고 이해했습니다 만약 relu를 사용한 경우라면 베타와 감마 학습을 하지 않아도 되는 것일까요? 이것도 사실 평균 0인 곳으로 고정을 시켜 놓는 느낌이라 반정도는 항상 gradient를 0으로 만들어 버리는 것 같아서 찜찜한데 이부분에 대해서 혁펜님 생각이 궁금합니다!

@hyukppen 2 жыл бұрын

1. gamma는 모든 weight에 대해서 곱해지는 값이라 각 edge에 곱해지는 weight와는 다르다고 볼 수 있습니다. 존재 이유는 얼만큼 퍼뜨려 주느냐를 결정해 줄 수 있는 것이죠. 2. relu라면 반대로 무조건 0근처로 뿌려주면 항상 non-linearity를 살려주겠다는 뜻이겠죠? 어떤 노드는 linearity가 중요할 수 있습니다. BN은 그걸 학습시키는 거죠!

@klg7839 2 жыл бұрын

@@hyukppen 아하 감마가 곱해지는건 weighted sum값에 대해 곱해지는 것이라 그렇겠네요 이해됬습니다. 오히려 linearity가 필요할 수도 있다는 생각은 못했었는데 새로 배웠습니다 ㅎㅎ 친절한 설명 감사드립니다~

@jinmang2 3 жыл бұрын

감사합니다 :-)

@HW-ms4nt Жыл бұрын

감사합니다.

@ksw591 Жыл бұрын

감사합니다. 요즘 좀 고민이 있습니다. BN이 좋긴 좋은데.... 에러를 평활화시켜서 다양한 test에 대해 결론적으로 비슷한 결과가 나오는 것 같습니다... 가령 trained model로 다수의 test sample에 대해 예측하면 다들 비슷비슷하게 나오네요... data augmentation해서 training해도 효과가 드라마틱하진 않고. 앤드류 Ng 교수... 배치 정상화는 현재 심층 학습 커뮤니티에서 잘 채택되고 있음. 그런데 최근의 논문은 이 기법으로 얻은 개선된 결과가 단순히 내부 공변량 이동의 억제 때문은 아닐 수 있음. 대신에 네트워크의 손실 지형을 평탄하게 한 결과일 수 있다고 언급 제 모델로 해본 결과도 결론이 비슷합니다. 그래서 BN를 안 쓰고 좋게 하는 방법을 고민 중이네요.. 그런데 잘 안되요.. ^^;

@ggongsowon 2 жыл бұрын

강의 정말 잘 듣고 있습니다! 혹시 BN 역전파 과정 동영상도 올려주시면 안될까요 ㅠㅠ

@user-oi1df6rd7b 2 жыл бұрын

천재..

@참좋은-u2u 3 жыл бұрын

좋아요 머리에 집어넣어주시네요

@daehwaa 2 жыл бұрын

최고의 17분 인정

@wr925 3 жыл бұрын

CNN에서의 BN설명에서의 질문이 있습니다. 만약 Image 크기가 28 * 28 * 3 이고 filter 사이즈가 3 * 3 * 3이고 개수가 64개라면 베타와 감마는 각각 64개가 필요한 것이고 batch_size가 32라고 가정하면 평균과 분산을 계산하기 위해 32 * 28 * 28 * 1 (padding 적용시) 를 하나의 샘플로 봐서 28 * 28 * 1 사이즈의 이미지를 32개에 대한 평균과 분산을 각각 구하는 거고 64개의 베타와 감마, 평균, 분산이 나오는 거라고 이해를 했는데 맞게 이해를 한 걸까요?

@hyukppen 3 жыл бұрын

32 * 28 * 28 개의 sample들인 것이고 이에 대한 평균과 분산을 구합니다! filter가 64개여서 같은 과정을 64개에 대해서 똑같이 적용, 64개의 베타 감마 쌍에 대해 64개의 평균, 분산 쌍을 계산합니다

@labmedia4009 2 жыл бұрын

딥러닝 강의 정말 잘 봤습니다! 감사합니다. 혹시 Transformer 영상 계획이 있으신가요?

@hyukppen 2 жыл бұрын

트랜스포머는 영상보다는 현장강의 내용에 포함하려고 합니다 ㅎㅎ

@junbug3312 2 жыл бұрын

Yolo도 한번..ㅎ

@만수-f8d 2 жыл бұрын

강의 영상 잘봤습니다. 감사합니다. 궁금한 점이 있는데 cnn에서 batch normalization이 이루어질 때 m*p*q에서 m(mini-batch size)가 어떻게 계산되는지 설명해주시면 감사할 것 같습니다.. input이 2*2*3 filter가 2*2*3이고 한개라고 했을 때 mini batch size는 어떻게 구하는 걸까요?

@hyukppen 2 жыл бұрын

mini batch size는 계산해서 나오는 값이 아니고 정해주시는 겁니다! 몇개 데이터를 한 덩어리로 묶을 지 정해주시면 됩니다 보통 32개로 잡습니다

@user-xo9gb6xu7b 2 жыл бұрын

강의너무 잘봤습니다. 그런데 강의 마지막 부분에서 (16:33 이후) batch normalization을 사용할 경우 drop out을 왜 안해도 되는지 이해를 못했습니다. 이 부분에 대해 설명해주시면 감사하겠습니다.

@hyukppen 2 жыл бұрын

논문 abstract에서 저자가 주장하는 것인지라 (BN이 regularizer 역할을 해서 dropout 안해도 된다) 저도 정확히 왜 그런지까지는 잘 모르겠습니다 ㅎㅎ dropout까지 했을때 더 좋다면 사실 넣는 게 낫죠..! 혹시 이 관련 직관적으로 설명가능해지시면 댓댓글로 부탁드리겠습니다!

@januan85 2 жыл бұрын

(γ,w) 페어에 대해서 (*,w*)랑 (1,w*γ*)로 학습된 뉴럴 네트워크가 동일 값을 추정한다는 점에서 initial setting값이 생각보다 중요할 것 같다는 느낌이네요

@한성빈-g8p 6 ай бұрын

안녕하세요. 16:17 에서 lr설정시 0에 가까울 수록 lr을 높게 설정해도 된다는 것이 이해가 잘 가지 않아서 질문 드립니다. 입력이 0에서 멀어진다면 기울기가 작아져 오히려 lr을 키워야 되고, 0에 가깝다면 기울기가 커져 lr을 줄여야 한다 이해해서 조금 이해가 안되어 질문 드립니다.

@hyukppen 6 ай бұрын

질문을 제가 잘 이해를 못 했습니다 ㅠ x축은 epoch, y축은 accuracy입니다. "0에 가까울 수록 lr을 높게 설정해도 된다는 것" 에서 무엇이 0에 가까울 수록인가요?

@한성빈-g8p 6 ай бұрын

아 제가 질문 드린건 15:51 내용인데 타임스탬프가 잘못 찍혔네요ㅠㅠ 위 타임스탬프에서 0에서 멀수록 업데이트를 안하는게 맞다 하셨는데, 0에서 멀수록 기울기가 작아져서 lr을 높게 설정하여 업데이트를 더 해주는게 맞지 않을까 생각 되서요..!! 반대로 배치 정규화를 통해 입력들이 0 근처로 모인다면 기울기 값이 커져 오히려 lr을 작게 해주어야 맞지 않나 생각이 들어 질문 드립니다ㅠ

@한성빈-g8p 6 ай бұрын

또한 입력값들이 배치 정규화를 통해 모와준다, 따라서 lr을 크게 해준다. 여기서 입력 분포가 모이는 것과 lr을 크게 해줄 수 있다는 상관관계가 왜 그런지 잘 이해가 되지 않이 질문 드립니다ㅠㅠ

@hyukppen 6 ай бұрын

@@한성빈-g8p 그라디언트는 무조건 가장 가파르게 올려주는 방향을 향하기 때문에 미분이 0일지라도 어쨌든 해당 미분 값이 나온 위치에서는 그것이 그라디언트 방향인 거는 맞다는 취지에서 말씀 드린 것이었습니다. 미분이 작으면 미분을 크게 해줘야한다는 것은 x^2을 minimize 한다고 했을 때 0 근처로 다 왔는데 갑자기 step size를 키워 0에서 벗어나게 하는 것과도 같죠

@hyukppen 6 ай бұрын

@@한성빈-g8p 제 생각엔 vanishing gradient의 해결과 non-linearity 확보 이 둘 사이를 잘 trade-off하는 지점을 찾아준 것이기 때문에 그라디언트 방향이 안정적이고, lr를 키워도 적절한 방향으로 잘 가준다 이렇게 생각했습니다. 가령 sigmoid를 쓰는데 누구는 0 근처, 누구는 10 근처로 들어가는 상황에서 lr을 키워버리리면 미분 큰 애는 너무 크고 미분 작은 애(거의 0)는 큰 lr 곱해도 여전히 0에 가까워서 이상한 곳으로 튀어버릴 수도 있을 것 같아요

@참좋은-u2u 3 жыл бұрын

relu 같은 경우는 0으로 normalize 해도 되지않나요?? 1,2,3 번만 사용 4번 사용하지 않아도 될꺼같아서요

@hyukppen 3 жыл бұрын

질문 감사합니다 ㅎㅎ 1,2,3번만 사용, 4번 사용하지 않아도 된다는 것이 어떤 의미인지 잘 모르겠습니다 ㅠ 혹시 몇분 쯤을 보면 될까요?

@참좋은-u2u 3 жыл бұрын

@@hyukppen 답변 감사합니다 12분 40초 쯤에 4. ax+b=y 를 쓰는 이유는 시그모이드 에서 0근처로 가면 리니어 함수 이기 때문에 4번 을 써야한다 라고 하셔서요! 만약 relu 면 0근처로 가도 리니어가 아니기 때문에 상관이 3번까지 정도해도 되지않을까?? 라는 궁금증이 생겼습니다.

@user-of9nq6jj4d 3 жыл бұрын

ㅋㅋㅋㅋㅋ 블랙이슈 자주보시는제 하임님 영상 첫소리가

@user-qj9my7ny7q 3 жыл бұрын

처음 나오는 xi가 batch input data 그 자체가 아니라 batch inout data에 weight vector를 곱한 값을 의미하는건가요..? 그래서 그것의 평균과 분산으로 BN을 하는건가요?

@hyukppen 3 жыл бұрын

넵 말씀하신 게 맞아요! 다만 input layer 바로 뒤에 놓는 것은 아닙니다. 어디에서 BN할지 마음대로 선택하는 거죠. 정리하자면.. 우선 BN layer를 특정 layer 에 놓는 겁니다. 입력 레이어로부터 시작해서 쭉 통과하다가 BN layer를 만나면 작업(?)이 이루어지는 것이고, 말씀하신대로 weight vector가 이전 layer출력에 곱해져서 더해진 다음의 값을 여러 입력(batch)에 대해 통과시켜 구한 값들에 대해 평균 분산 구해서 normalize합니다! activation 통과 직전의 값이라고 생각하시면 편할 거 같아요~ 논문에서 weight곱하기전, 그러니까 이전 layer의 activation 통과 직후의 값으로 BN을 하는 거는 결과가 그닥 안좋았었는지 distribution이 weighted sum 후에 좀 안정적이다(more Gaussian이라고 표현. 약간 central limit theorem 관련 있을 거 같아요) 라고 둘러대면서 activation 통과 직전에 BN 하기를 제안합니다.

@user-qj9my7ny7q 3 жыл бұрын

@@hyukppen 아하 자세한 답변 감사합니다. 논문 한 번 찾아서 읽어봐야겠네요! Batch 사이즈가 작아지면 전체 input data에 대한 분포를 미니배치의 평균과 분산이 대표할 수 없어서 'group normalization' 으로 BN을 대신했더니 모델의 성능이 매우좋아졌다는 논문이 2018년에 발표된 것으로 알고있습니다. BraTS2018 Challenge 부터는 우승팀들이 제안한 네트워크를 보면 꼭 GN이 들어가 있더라구요. BN에 이어서 GN도 혁펜하임님의 스타일로 정리해주시면 대학원생들한테 엄청 도움될 것 같아요!! 항상 잘보고있습니다~~ 다만 약간 편집되어서 그런지 예전 Gradient descent처럼 깊게 수식적으로 천천히 따라가는 맛은 조금 덜해져서 아쉽네요ㅠㅠ 그때는 진짜 수업 듣는 느낌이었는데 ㅎㅎ

@hyukppen 3 жыл бұрын

@@user-qj9my7ny7q 수식적으로 왜 잘되는지 분석해보려고 열심히 머리를 싸매봤지만..... 쉽지 않더라구요.. BN 논문에서 제시된 "잘되는 이유"가 진짜 잘되는 이유가 아니다 라는 주장도 많다고 하고 논문 발표 이후 저자들이 생각해보고 좀 더 분석을 한 report도 있습니다. 하지만 결국 해보니 잘되는 건 맞고 근데 왜 잘되는지에 대해서는 "이렇게 생각해 볼 수도 있다" 정도이지 딱 "이래서 잘되는 거야!" 라는 건 없는 것 같아요. net이 deep해지고 여러가지 요인들 (optimizer, activation 등)이 영향을 복합적으로 주다보니 net을 그저 블랙 박스로 놓고 해보니 잘된다는 식으로, 그리고 잘되는 이유는 "인간의 주관적 해석"이 들어갈 수 밖에 없는 단계에 이르렀죠 ㅋㅋ 제 생각엔 이제 관건은 수식적으로 end-to-end로 제대로 보일 순 없으나 수학적 근거를 뒷받침해서 (BN으로 예를 들면 normalize라는 수식적 방법) net한테 "prior 정보" 를 적절하게 주는 것인 거 같습니다. RNN도 뭔가 시계열 data에 존재하는 입력간의 강한 correlation을 살려주기 위해 같은 weight를 공유해보자는 prior 정보를 잘 준 모델이라고 할 수 있고 BN도 activation 통과 전에 0근처로 값을 모은 상태에서 학습을 시작을 좀 해봐라는 prior를 잘 준 것 같아요.

@user-qj9my7ny7q 3 жыл бұрын

@@hyukppen 아~~ network 내부는 블랙박스여서 수식적으로 증명하는데는 한계가 있는거군요.. 복합적으로 영향을 미치는 요인도 많고. 답변감사합니다. 앞으로도 좋은 영상 많이 올려주세요!! 많이 배우고 있습니다 : )

@user-sr5dc4kc7r 2 жыл бұрын

논문을 읽고 나서 모호했던 부분이 이 강의로 많이 해결됐습니다. 감사합니다!! 질문이 한 가지 있습니다. input data에 batch normalization을 한 번 해주고 hidden layer로 입력되게 하는 기법은 어떻게 생각하시나요? 제가 연구하는 분야의 data는 explicit한 max값이 없어 통상적으로 input data의 pre-processing로 사용되는 max값으로 나누는 normalization을 해줄 수 없어서 차선책으로 이러한 방법을 사용하고 있는데 (사실 강의의 3번식은 평균0 분산1로 맞추는 standarization에 가깝지만), 적절하다고 생각하시나요? 답변에 미리 감사드립니다!

@hyukppen 2 жыл бұрын

오 그렇군요 이미지라면 딱 정해진 max 값이 있어서 그렇게 나누면 normalize되기 땜에 굳이 입력에서 BN은 안하는 것 같은데, 말씀하신 상황이면 해도 될 것 같아요. 사실 이 동네가 그렇듯, 해보고 잘되면 “내 생각이 맞네 이러이러 해서 잘되는 거네” 라고 논문에 쓰면 되고 안되면 또 고민해보고.. 이러면 됩니다 ㅋㅋ 결과는 어떻던가요? 하시는 분야에서는 입력에 BN하는 것이 효과 있다고 이미 검증된건가요?

@sion5224 11 ай бұрын

BN을 써도 dropout을 쓰지 않나요? 보통 LN이랑 dropout이랑 같이 많이 쓰던데 그건 LN이라 다르게 봐야 하나요

@hyukppen 11 ай бұрын

음 그러게요 CNN에서는 BN과 dropout이 한 층에서 같이 쓰는 것을 본적이 없긴 힙니다

@sion5224 11 ай бұрын

@@hyukppen LN은 레이어 단위로 적용되는거라 쓰면 성능이 더 잘 나오는걸까요

@hyukppen 11 ай бұрын

@@sion5224 NLP에서 많이 쓰이는데, pad 토큰을 생각해보면 BN으론 평균 분산이 이상해지기 때문에 BN을 대신할 것이 필요했던거죠 ㅎㅎ

@sion5224 11 ай бұрын

@@hyukppen 그럼 왜 BN이랑 드롭아웃은 같이 안쓰는데 LN이랑은 같이 쓸까요..?

@macaca2032 Жыл бұрын

9:45에서 왜 Filter의 개수가 늘어도 sample의 수는 동일한가요? 각 배치마다 64개의 filter를 한번에 시행하기 때문인가요? ex. 1번째 배치에서 1~64번째 filter를 한번에 연산??

@hyukppen Жыл бұрын

filter의 개수는 곧 아웃풋 채널의 수 입니다 1차원 데이터의 노드랑 같은 개념이에요. 노드 마다 평균 분산을 계산하잖아요? 그래서 각 아웃풋 마다(각 필터마다) 각각의 평균 분산을 학습합니다

@macaca2032 Жыл бұрын

혹시 각 위치에서 모든 필터의 output의 평균을 구해서 샘플의 수가 같다는 말씀이신가요? 결국은 이 말이 한번에 계산한다는 말인거 같기는 한데..!

@hyukppen Жыл бұрын

@@macaca2032 오잉 모든 필터라고 말씀드리지 않았습니다! 각 필터 입니다 ㅎㅎ

@CodingoKim Жыл бұрын

혁펜하임을 왜 지금 알았지..

@hwanunglee7722 3 жыл бұрын

미쳤다

@user-in5qn7je3v 3 жыл бұрын

그냥 넣기전에 모든 data set을 normalization 하면 안되나요?

@hyukppen 3 жыл бұрын

좋은 질문입니다. ㅎㅎ 넣기전에 normalize를 했다고 하더라도 여러 layer를 통과하다보면 값이 들쑥날쑥 해지겠죠? 결국 비슷한 문제를 겪게 될겁니다. 그래서 통과 중간중간에 normalization을 하자는 거지요

@junghabaek2046 2 жыл бұрын

이걸 공짜로 봐도 되는지... 감사합니다 너무 좋았습니다!

@librae-5664 Жыл бұрын

이런 공간에 저급한 표현이 어울릴지 모르겠지만... 쌋다 쌋어

@hyukppen Жыл бұрын

지려버리셨슴까 ㅎ

@user-ux6xt8he3m 2 жыл бұрын

감사합니다.

@hyukppen 2 жыл бұрын

후원 감사합니다!!