2과목 데이터 전처리 절차 정제 - 통합 - 축소 - 변환 카이제곱 검정은 데이터가 정규분포를 만족하나, 자료의 수가 적은 경우에 이상치를 검정하는 방법 단계선택법: 전진선택법에 의해 변수를 추가하면서 새롭게 추가된 변수에 기인해 기존 변수의 중요도가 약화되면 해당변수를 제거함 임베디드 메소드 최소제곱법을 이용해서 bias를 낮춤 릿지: L2 회귀계수들의 제곱합이 특정값 이하로, 변수선택의 기능이 없다 라쏘: L1, 회귀계수들의 절댓값이 특정값 이하로, 축소추정과 변수선택 기능 있음, 중요하지 않는 변수 가중치는 0이 됨, L2거리는 유클리드 거리 차원축소 종류 -주성분분석(PCA): 데이터 정규화 - 상관계수 행렬 구한다 -고유값 변동 비율을 이용하여 적절한 주성분수 결정(0.7~0.9) 기존 데이터 벡터를 선형결합하여 Projection 하는 것이므로 비선형 분포에 대해 적합하지 않다. 고차원의 데이터를 저차원으로 분해 -선형판별분석(LDA): 분포 보다는 클래스를 나누는 것에 좀 더 초점을 맞췄다 -요인분석(FA): 변수들 내부에 존재하는 구조를 파악하는 분석, 독립변수와 종속변수 구분없음 -특이값 분해(SVD): m*n 행렬을 분해, PCA와 LDA와는 다르게 비정방행렬에 적용 가능 데이터 변환 -큰 수를 작게 먼들 경우: 로그변환(양수만 가능), 제곱근변환 -작은 수를 크게 만들 경우: 지수변환, -Box-Cox변환: 데이터를 정규분포에 가깝게 만들거나 데이터의 분산을 안정화하여 정규성을 가정하는 분석법이나 정상성을 요구하는 분석법을 사용하는데 앞서 사용 범주형 데이터 변환 -구간화 -더미변수(one-hot encoding) -데이터 인코딩: 레이블 인코딩, 타겟 인코딩, 오디널 인코딩 불균형 데이터 처리법 -언더/오버샘플링 -임계값 이동: 학습 단계에서는 변화 없이 학습하고 검정 단계에서 임계값을 이동하여분류의 비율을 조정한다. -앙상블:언더+오버 조합한 방법) EDA의 4가지 주제 -저항성의 강조: ex)이상치에 민감한 평균대신 중앙값 사용 -잔차의 계산 -자료변수의 재표현을 통한 다각적 시도 -그래프를 통하 적시성: 시각화 공분산 성질 -만일 X,Y 가 독립이라면 Cov(X,Y)=0임 -Cov(X,Y)=0이라고 해서 무조건 X,Y가 독립은 아님 -Cov(X,Y) = E(XY)-E(X)E(Y) -Cov(X,Y) = Cov(Y,X) -Cov(3X+b,2Y) = 6Cov(X,Y) -공분산의 절대값이 크다고 연관관계가 크진 않음 변동계수(변이계수,CV) =표준편차/산술평균 -측정단위가 다른 데이터 비교을 위해 변동계수를 사용 층화 추출법은 집단 내에서는 동질적이지만 집단 간 차이가 이질적 ->지역별 여론 조사를 위해 각 도에서 무작위 100명씩 추출 집락추출법인 집단 내에서 이질적이고 집단 간 차이가 동질적이다 중심극한정리 -모집단의 분포가 정규분포가 아니더라도 표본의 크기가 충분히 크다면 (n>30) 표본평균의 분포는 정규분포임 -모집단의 분포가 정규분포라면 포본평균의 분포도 정규분포임 추정량의 결정기준 -불편성: 표본의 기댓값으로 점추정할 때 모수의 참값과 같음 -효율성: 분산이 작은 추정량 -일치성: 표본크기가 증가 -충족성: 동일 크기 표본 중 많은 정보 제공하는 추정량 신뢰수준(Z기준) -90%: 1.645 -95%: 1.96 -99%: 2.57 정규성 검정법 -Q-Q플롯, 샤피오-윌크, 콜로고로프-스미노프, 앤더슨 다링 -Shapiro-Wilk, Kolomogorov-Smirnov, Anderson-Darling통계량
@epass_biz8 ай бұрын
영상 시청에 더불어 완벽한 정리까지 정말 최고입니다👍🏻👍🏻 시험에 좋은 결과 있으시길 응원하겠습니다!🥰
@future_MBpresident8 ай бұрын
3과목 분산분석(Anova) 두개 이상의 집단 간 비교 F검정 통계량= 집단 간 분산 / 집단 내 분산 을 활용 데이터 분석 모형이 복잡할수록 과대적합되서, 분산은 높고, 편향은 낮다. 의사결정나무 알고리즘 -목표변수가 이산형일때 -CHAID: 카이제곱 통계량의 p-value가 가장 작아지는 방향으로 가지 분할 -CART: 지니지수가 작아지는 방향으로 가지 분할 -C4.5, C5.0: 엔트로피 지수가 작아지는 방향으로 가지 분할 의사결정나무 알고리즘 -연속형일 때 -CHAID: F통계량의 p-value가 가장 작아지는 방향으로 가지 분할 -CART: 분산의 감소량이 커지는 방향으로 가지 분할 연관규칙분석 -지지도(Support): P(A교B)/N -신뢰도(Confidence): A를 구매할 때 B를 구매할 확률 조건부확률 -향상도: A를 구매했을 때 B를 구매할 가능성에 관한 지표 1에 가까울수록 독립에 가까우며, 1보다 크면 양의 상관관계 SOM(Self Organizing Map) -입력 벡터를 훈련 집합에서 match 되도록 가중치를 조절하는 인공신경세포 격자에 기초한 자율학습 차원축소와 군집화를 동시에 수행함
@epass_biz8 ай бұрын
1, 4과목에 이어 2, 3과목 모두 완벽 정리 최고입니다👍🏻👍🏻 하시는 공부 모두 화이팅입니다!😊