선생님 제가 플젝을 진행하고 있는데 모델은 부스팅 기반 분류기들입니다. 트리기반 알고리즘 자체가 변수선택 기능이 있는거로 기억하는데, 그러면 모델 학습 전 굳이 라쏘로 변수를 먼저 선택할 필요는 없는건가요?
@suanlab2 жыл бұрын
네 변수 선택 없이 그대로 쓰셔도 됩니다.
@박영빈-p9l2 жыл бұрын
강의 감사합니다. 궁금한 게 있는데, Feature Importance 막대 그래프에서 x축의 수치가 의미하는 것은 무엇인가요? 구글링 해보니 각 Feature가 모델에서 사용된 횟수를 의미한다고 하는데 잘 이해되지 않습니다.
@haneulkim49023 жыл бұрын
좋은영상 감사합니다 :) @26:27 에서 당뇨병 데이터셋에 XGBRegressor 해서 test score 가 나왔는데 30%라는게 어떤걸 의미하나요? 위에 보면 "squaredError" 사용했는데 SE=0.3이 아닌가요?
@suanlab3 жыл бұрын
저 질문을 잘 이해못했습니다.
@dasolkang17433 жыл бұрын
영상 시청 중에 11:32 에서 질문드립니다. dtrain, dtest를 이용하지 않고 앞에서 이용했던것처럼 model.fit(X_train, y_train)을 하여도 문제없이 실행은 되더라구요 그런데, 모델 성능이 전체적으로 0.02씩 떨어지는 현상을 발견하게 되었습니다. 혹시 xgboost에서는 dtrain, dtest을 사용하시는지, 그리고 이를 이용하면 왜 성능이 올라가는지 여쭤도 될까요?
@suanlab3 жыл бұрын
DMatrix는 XGBoost에서 사용되는 전용 데이터셋입니다. 학습 데이터 세트와 테스트 데이터를 합쳐서 DMatrix로 변환하는데, 혹시 dtrain, dtest 말고 어떻게 사용하신 건가요?
@dasolkang17433 жыл бұрын
@@suanlab linear model 학습 시킬 때처럼 train test split을 이용하여 데이터를 분리하였습니다
@박주형-s5h3 жыл бұрын
안녕하세요! 좋은 영상 감사합니다! 혹시 질문하나만 드려도 괜찮을까요? 38:30 에서 보스턴 데이터로 lgbm regressor 수행하시고 cross validation으로 마지막 줄에 test score 구하셨는데 regression 문제의 경우 test score는 어떤 의미를 가지나요? classification 문제의 경우 cross validation으로 구한 test score가 분류를 얼마나 잘 하는지를 측정하는 도구라면 regression 문제의 경우 cross validation으로 구한 test score은 어떻게 해석하는 것이 좋을까요? 영상 시청 중 너무 궁금해서 문의드립니다 ㅠㅠ
@suanlab3 жыл бұрын
좋은 질문이네요. ^^ regression의 경우에는 test dataset에 대해서 얼마나 회귀하는지를 score로 측정한겁니다. 예를 들어, 예측이라고 하면 얼마나 잘 예측하는지에 대한 척도라고 볼 수 있겠네요.
@ilmecha_ju79373 жыл бұрын
항상 좋은 강의영상 감사드립니다_! 20:06 에서 Feature importance에 관하여 질문이 있습니다_! graphviz(Tree)에서는 가장 중요한 feature가 f2인데, subplot(막대그래프)에서는 가장 중요한 feature가 f1으로 나오네요 어떤 모델이 더 정확한건가요??