[핵심 머신러닝] Principal Component Analysis (PCA, 주성분 분석)

Рет қаралды 42,093

‍김성범[ 교수 / 산업경영공학부 ]

Күн бұрын

Пікірлер: 61

@youngbae4649 9 ай бұрын

제가 원했던 강의 여기서 만나게 되어 기분이 넘 좋습니다. 좋은 강의 감사합니다. 계속 반복해서 들어야겠네요...감사합니다.

@김성범교수산업경영공 5 ай бұрын

고맙습니다!

@stefanoshin8118 4 жыл бұрын

개념과 함께 예제를 설명해 주셔서 이해가 잘됩니다. 좋은 자료 너무 감사합니다.

@김성범교수산업경영공 4 жыл бұрын

감사합니다!

@우윳빛깔케라스 5 жыл бұрын

컴퓨터공학 전공하다가 얼마 전부터 데이터사이언스쪽을 공부하기 시작해서 수리, 통계적 측면에서 많이 부족하다보니 개념을 이해하는게 굉장히 힘들었는데 이렇게 알기 쉽게 설명해주셔서 도움 많이 받고 갑니다 교수님. 많이 바쁘시겠지만 가능하시다면 앞으로도 좋은 내용 많이 알려주셨으면 좋겠습니다! 감사합니다.

@김성범교수산업경영공 5 жыл бұрын

감사합니다!

@나나나-t7u 3 жыл бұрын

정말 설명이 환상적이네요... 혼자 공부할 때 이해가 안갔던 부분을 다 뚫어주십니다. 하 내가 왜 이걸 이제 봤지

@김성범교수산업경영공 3 жыл бұрын

감사합니다. 이해가 잘 되셨다니 기쁩니다.

@sanghyunpark1046 3 жыл бұрын

딥러닝을 처음 공부하면 딥러닝의 테크니컬한 부분들이 모든 문제를 해결해 줄 것 같은 마법처럼 느껴지는데 공부를 하면 할 수록 결국은 이런 수학적인 근간들이 얼마나 중요한지 다시 깨닫게 되네요ㅠ 좋은 강의 감사합니다.

@김성범교수산업경영공 3 жыл бұрын

도움이 되신 것 같이 기쁜 마음입니다. 감사합니다.

@김태현학생화학생-h2s 5 ай бұрын

좋은 자료와 쉬운 설명 정말 감사합니다!! 많은 도움이 되었습니다☺☺

@김성범교수산업경영공 5 ай бұрын

고맙습니다~

@seonghyeonkim3227 4 жыл бұрын

머신러닝 공부를 시작하면서 PCA 개념이 명확하게 이해가 되지 않아 며칠을 앓았었는데, 이 영상 하나로 깔끔하게 이해할 수 있었습니다 정말 감사합니다!

@김성범교수산업경영공 3 жыл бұрын

감사합니다!

@투게더존맛탱 Жыл бұрын

교수님 안녕하세요 PCA에 대해서 공부하기 위해 찾아보다 좋은 영상을 발견하게 되어서 너무 기쁩니다. 3년전 영상이라 답변이 가능한지 모르겠으나 궁금한 점이 있어 댓글 남깁니다 8:30 영상에 보게 되면 PCA는 n개의 관측치와 p개의 변수로 구성된 데이터를 상관관계가 없는 k개의 변수로 구성된 데이터로 요약하는 방식이라고 정의내려져 있습니다. 또한 마지막 문장에 요약된 변수는 기존 변수의 선형 조합으로 생성된다고도 적혀있구요. 제가 궁금한 점은 기존 변수의 선형조합으로 새로운 데이터를 만들어 내는데 왜 그것이 상관관계가 없다고 말 할 수 있는 건가요? 구글에 상관 관계 정의를 찾아보니 상관 관계는 2개 변수가 선형 관계가 있는 범위를 표현하는 통계적 측도라고 나와있는 걸 보았습니다. 이렇게 변수를 가지고 선형관계의 범위를 표현한다고 나와있습니다만 PCA 또한 선형 조합으로 생성한다고 적혀있어서 상관관계의 정의의 혼동이 생겨 이렇게 댓글을 남기게 되었습니다. 그래서 저는 오히려 상관관계가 높은 k개의 변수로 구성된 데이터로 요약하는 방식이 아닌가 싶어서 궁금한 학생의 입장에서 질문드립니다! 감사합니다.

@김평-c6n 5 жыл бұрын

항상 좋은강의 업데이트 해주셔서 감사드립니다!

@김성범교수산업경영공 5 жыл бұрын

감사합니다!

@jiwonkim2982 2 жыл бұрын

37:15에 보면 z1이 아니라 z3값이 들어있는데 오타 인 것 같습니다.

@DonDon-gs4nm 4 жыл бұрын

교수님 좋은 강의 올려주셔서 감사합니다!!

@김성범교수산업경영공 4 жыл бұрын

감사합니다!

@donggukim9130 4 жыл бұрын

좋은 강의 감사합니다.

@김성범교수산업경영공 4 жыл бұрын

감사합니다!

@최철-q3r 4 жыл бұрын

좋은 강의 너무 감사드립니다. corr matrix, 고유값과의 연계 등 PCA에 대한 이해를 깊이 할 수 있었습니다

@김성범교수산업경영공 4 жыл бұрын

감사합니다!

@cafelatte1 3 жыл бұрын

다양한 영상 감사합니다. 전공이 공학쪽이 아니라 PCA는 중간 과정을 이해하기가 조금 어렵네요. 그나마 제일 쉽게 설명해 주시는 것 같습니다.

@Sjk-vr9tp 8 ай бұрын

명강의 감사합니다.

@rudah96 3 жыл бұрын

강의 잘 들었습니다! 39:10에 나오는 아이젠 벡터 노테이션이(e_1^T)가 잘못된거 같은데 맞나요?? 위에선 람다3에 해당하는 아이젠벡터가 e_3^T인데 아래 Z_1에선 e_1^T로 표시되어 있어서요!

@brainwt 5 жыл бұрын

좋은강의 감사합니다!

@김성범교수산업경영공 5 жыл бұрын

감사합니다!

@JJJ-wu4ex 3 жыл бұрын

감사합니다. 혹시 인자분석 관련 영상도 하나 만들어주시면 정말 감사하겠습니다!

@강용두-g6n 2 жыл бұрын

너무 너무 잘 만들어진 강의입니다.. 다른 분들과 마찬가지로 PCA에 대해서 막힌 부분이 펑 뚫린 기분입니다.. 하지만 비전공자인 제가 PCA를 이렇게까지 파헤치게 된 이유인 PCA를 비지도 학습이라고 하더라구요.. 비지도인 건 알겠는데 왜 학습인가요? 도대체 어떤 부분이 학습에 해당하는지 도저히 모르겠네요..

@sihyunkwon1961 5 жыл бұрын

좋은 강의 감사합니다. 대충만 이해하고 있었던 PCA인데, 본 강의로 한층 이해도가 깊어졌습니다! 저 한가지 질문을 드리자면, PCA loading은 결국 Eigenvector 인거죠? 굳이 다르게 부르는 이유가 있을까요? 조금 다른 뉘앙스를 담고 있다던가하는...

@김성범교수산업경영공 5 жыл бұрын

네. 맞습니다!

@KwakJS1111 4 жыл бұрын

진짜 감사드립니다 !

@김성범교수산업경영공 4 жыл бұрын

감사합니다!

@Kenneth_Kwon 2 жыл бұрын

안녕하세요. 김성범 교수님 Feature수가 아주 많은 데이터 100개가 있을경우 PCA를 통해 차원을 줄인뒤 (예: pc1~pc20) 이 값으로만 머신러닝 모델을 만든다고 가정했을때... 새로운 테스트 샘플 1개가 들어올 경우 모델과 같은 dimension이어야 하기 때문에 pc1~20으로 축소해야 하겠죠. 그래서, 이 1개 샘플을 train set에 합쳐서 101개 샘플로 pca를 수행하고 테스트샘플 1개로부터 pc 1~pc20까지 값을 추출해서 모델에 테스트셋으로 사용하는 것에 대해 어떻게 생각하시나요? 이렇게 사용하는 예가 있는지? 혹시 이렇게 분석하는데 있어 근본적인 문제가 있는지 알고싶습니다. 제가 생각하는 문제는 test 샘플이 모델을 만든 train data와 함께 PCA가 수행되면서 test leakage가 결국 발생되는 것 아닌가 하는 것이거든요. 또하나는 학습에서 구해진 주성분 벡터가 과연 테스트 샘플에 적용을 시킬 수 있는 것인가 하는 점입니다. + 또하나의 질문은 PCA를 통해 information loss가 발생할텐데요. 과연 얼마나 loss가 되는 것인가를 측정할 방법이 있을까요?

@jpxrk88 2 жыл бұрын

좋은 강의 감사합니다. 저는 데이터 사이언티스트 3개월차인데 교수님 강의를 보며 많이 배우고 있습니다. 한가지 여쩌보고 싶은게 있는데 제가 영상으로 공부한 PCA, PLS 분석의 경우 데이터가 정류분포일 때 가능하다고 하셨습니다. 그럼 데이터의 분포가 일정하지 않고 산발적, 즉 fluctuation이 심한 경우에 적합한 방법도 있을까요? Double gaussian 분포의 경우는 kernel PCA와 같은 방법이 있다고 하셨는데 데이터가 어떠한 분포로 설명되지 않는 산발적인 데이터는 어떤식으로 분석할 수 있는지 궁금합니다. 감사합니다.

@웰치스-b7i 6 ай бұрын

교수님 머신러닝을 공부하기 전 선수과목으로 추천하시는 컴퓨터 언어있으실까요?

@김태완-j6y 6 ай бұрын

파이썬 언어 공부하시면 됩니다!

@문성일-l6v 4 жыл бұрын

교수님 강의 잘 듣고 있습니다! 매일 하루에 1강씩 들으면서 자세하게 몰랐던 지식을 강의를 통해서 축적하고 있습니다. 다만 질문이 2가지가 있습니다! 첫번째 질문은 PCA알고리즘 시작할 때 모든 변수를 centering 해주는 이유는 어떤 것이며, 변수 중 범주형 변수가 포함되어 있을 때는 어떻게 되는 지 궁금합니다. 두번째 질문은 beta1=1일 때 Z값이 maximize 된다고 하셨는데, eigen value인 lamda1이 가장크기 때문에 beta1에만 1의 값을 주는 것인지 궁금합니다! 항상 감사드립니다!

@eunjoochoi186 4 жыл бұрын

범주형 변수를 위해 Nonlinear PCA 가 있더군요. 저도 지금 찾아서 공부하고있습니다. 교수님 너무 잘가르치세요. factor analysis와 polychoric correlation도 해주셨으면 좋겠는데 ^^;; SEM도요.

@epochmaker81 5 жыл бұрын

교수님. 안녕하세요. 교수님 덕분에 헷갈리던 내용들에 대해 선명하게 이해가 되고 있습니다. 좋은 강의 감사드립니다.^^ 필기 하면서 공부하고 싶은데 혹시 강의자료 공유 가능하신가요? 앞으로 계속 좋은 강의 부탁드립니다. ^^

@dkdldb. 3 жыл бұрын

헐 혹시 지금 댓글달아도 답변이 올지.. 혹시 분산이 큰 측을 고르는 이유가 어떻게 되나요..? 왜 좋은건지 잘 모르겠네요

@sanghyunpark1046 3 жыл бұрын

축을 바꾼다는 것은 관점을 바꾼다는 것입니다. 1열 종대로 늘어 서 있는 사람들이 몇 명인지 혹은 남녀의 비는 어떠한지 키의 분포는 어떤지 정면에서 보면 알 수 없겠죠. 하지만 옆에서 보면 몇 명이 한 줄을 만들어 서있는지, 남자와 여자의 비는 어떠한지 키의 분포는 어떤지 분명히 알 수 있습니다. 분산이 크다는 것은 그 만큼 데이터들이 잘 퍼져있다는 것이고 그만큼 데이터 포인트 간의 구분이 쉬워진다는 것을 의미합니다. 데이터 포인트가 아무리 많아도 서로 구분할 수 없다면 크게 의미가 없게 됩니다. 따라서 분산이 최대화되는 새로운 축을 찾아내는 것입니다.

@dkdldb. 3 жыл бұрын

@@sanghyunpark1046 헉헉, 답변 감사합니다!!

@윤희상-o2m 4 жыл бұрын

감사합니다!

@김성범교수산업경영공 4 жыл бұрын

감사합니다!

@이지운-n9z 5 жыл бұрын

강의 잘보고있습니다~ 혹시 lda분석강의도 올려주실수 있나요??^^

@김성범교수산업경영공 5 жыл бұрын

네. LDA 강의 고려해 보겠습니다. 감사합니다.

@이은영-v6l 3 жыл бұрын

교수님 좋은 강의 잘 들었습니다. 혹시 PCA를 이용하여 축소한 데이터를 CNN(convolutional neural network)의 인풋데이터에 적용할 수 있나요?

@김성범교수산업경영공 3 жыл бұрын

CNN의 특징 중에 하나가 feature extraction이 모델 안에서 자연스럽게 이루어지는 것 입니다. 따라서 CNN을 이용한다면 굳이 PCA와 같은 feature extraction을 적용할 필요가 없습니다. "딥러닝 모델은 feature engineering이 필요없다"라고 말하는 내용을 보셨을 수도 있을텐데 이런 이유입니다.