Hướng Dẫn Các Bước Tiền Xử Lý Dữ Liệu bằng Scikit-Learn

  Рет қаралды 46,884

CodeXplore

CodeXplore

Күн бұрын

Пікірлер: 111
@CodeXplore
@CodeXplore 3 жыл бұрын
Jupyter Notebook cũng như dữ liệu của bài học hôm nay, các bạn có thể tải xuống tại Github Repo Link: ✪ Jupyter Notebook & CSV của Video: github.com/CodexploreRepo/data_science/tree/main/Code/P01_Pre_Processing Ai muốn làm nội dung gì thì comment bên dưới cho CodeXplore biết nha :)
@nam2222nam
@nam2222nam Жыл бұрын
Rất ý nghĩa từ nội dung đến cách chia sẻ và cách sống!🎉
@CodeXplore
@CodeXplore Жыл бұрын
Cảm ơn bạn đã ủng hộ 👏
@vutran-pj8zf
@vutran-pj8zf 3 жыл бұрын
trước tiền xử lí data thì có bước thu thập dữ liệu (Crawling data) , hiện tại python có selenium crawl nhưng khá lâu , bs4 thì nhanh hơn nhưng ko làm việc với js , scrapy nhanh nhất nhưng muốn crawling website code bằng js cần docker + flash . Hi vọng ae admin kênh làm 1 khóa scrapy +docker+flash để crawl những web code bằng js ( shopee , lazada , tiki ,vv...vv) e xin cảm ơn !
@CodeXplore
@CodeXplore 3 жыл бұрын
Wow good suggestion ! Anh sẽ note và làm em nhé ! Cảm ơn em đã luôn ủng hộ CodeXplore !
@minhdao1622
@minhdao1622 3 жыл бұрын
hay quá , mình cũng đang cần cái này. Hi vọng ad làm series về crawling data nữa thì quá tuyệt
@PhuongPham-ox6se
@PhuongPham-ox6se Ай бұрын
Rất bổ ích, mình cảm ơn channel nhiều
@damnguyen3570
@damnguyen3570 3 жыл бұрын
Bài giảng của anh rất hay và bao quát toàn bộ kiến thức. Hi vọng anh ra nhiều video ạ!
@CodeXplore
@CodeXplore 3 жыл бұрын
Nhất định rồi em nhé ! cảm ơn em đã ủng hộ CodeXplore !
@TuAnh-vb3gr
@TuAnh-vb3gr 3 жыл бұрын
Em hóng series này ghê á, anh đến ngay lúc em đang cần để làm đồ án luôn. Hi vọng có 1 video nào đó kiểu 1 mô hình nhỏ mà có thể bao quát được ứng dụng thực tế luôn á.
@CodeXplore
@CodeXplore 3 жыл бұрын
thế hả em ! Vinh dự quá, anh sẽ cố gắng em nhé !
@quangtran3604
@quangtran3604 3 жыл бұрын
Anh ra thêm về video data science tiếp đi anh, cứ cuối tuần em chờ suốt.
@CodeXplore
@CodeXplore 3 жыл бұрын
Ok em, Team sẽ cố gắng nhé 😀
@minhnguyenhoang9056
@minhnguyenhoang9056 3 жыл бұрын
cảm ơn a rất nhiều ạ. Mong a ra nhiều vid hơn về chủ đề khoa học dữ liệu
@CodeXplore
@CodeXplore 3 жыл бұрын
Nhất định rồi em nhé ! Hi vọng video hữu ích vs em !
@trungnguyenthanh9455
@trungnguyenthanh9455 3 жыл бұрын
Anh có thể làm một series về SQL với python được k ạ. A nói rất dễ hiểu. E cám ơn a ạ
@tuenguyen9722
@tuenguyen9722 3 жыл бұрын
Mong anh tiếp tục phát triển series này ạ. Quá hay luôn anh ơi
@CodeXplore
@CodeXplore 3 жыл бұрын
Nhất định rồi em nhé !
@doyenn1612
@doyenn1612 3 жыл бұрын
Thanks a. Mong a ra video nhiều hơn ạ
@CodeXplore
@CodeXplore 3 жыл бұрын
Nhất định rồi em nhé ! Hi vọng video hữu ích vs em !
@huynhvanthuan1838
@huynhvanthuan1838 2 жыл бұрын
Cảm ơn anh nhiều nhé! Em đã đăng ký kênh anh và bấm chuông thông báo rồi nha ^^
@tep67
@tep67 6 ай бұрын
anh ra thêm video về machine learning, deep learning như này đi ạ hay quá luôn, học dễ hiểu lắm tr
@ndhieunguyen
@ndhieunguyen 3 жыл бұрын
Anh giảng hay lắm ạ, hi vọng anh sẽ ra thêm video về Data Science
@CodeXplore
@CodeXplore 3 жыл бұрын
Nhất định rồi em nhé ! Chúc em có một buổi tối vui vẻ
@truongchidien3810
@truongchidien3810 3 жыл бұрын
Hề lấu em
@NGOCLETHITHAO
@NGOCLETHITHAO Ай бұрын
hành động thật ý nghĩa ạ
@nguyenannie9473
@nguyenannie9473 3 жыл бұрын
Video của a rất hay ạ! A ơi, bữa nào a làm video hướng dẫn kĩ thuật collect data trên web được không ạ! Cảm ơn a rất nhiều
@CodeXplore
@CodeXplore 3 жыл бұрын
Cảm ơn em đã luôn ủng hộ team CodeXp;ore nhé !
@nguyenduong5663
@nguyenduong5663 3 жыл бұрын
yêu anh zai quá, e hóng lâu lắm rồi ạ
@CodeXplore
@CodeXplore 3 жыл бұрын
Hehe thanks bro ! Hẹn em vào 7:30pm tối nay nhé !
@hienbui7423
@hienbui7423 Жыл бұрын
Cám ơn anh nhiều ạ
@CodeXplore
@CodeXplore Жыл бұрын
You re welcome em
@MaiNguyen-mt5ut
@MaiNguyen-mt5ut 3 жыл бұрын
rất dễ hiểu ạ, mong team ra nhiều sp hay !
@life-1193
@life-1193 Жыл бұрын
cám ơn bạn đã chia sẻ
@lyphuong3344
@lyphuong3344 3 жыл бұрын
Video huong dan rat chi tiet, cam on anh :)
@CodeXplore
@CodeXplore 3 жыл бұрын
You re welcome em
@quanghuytran5645
@quanghuytran5645 3 жыл бұрын
Video của anh hay quá ạ. Anh có thể chia sẻ thêm về một số nguồn học và khóa học về Machine Learning được không ạ??
@CodeXplore
@CodeXplore 3 жыл бұрын
Em có thể làm các project trên Kaggle hoặc học course Machine Learning của thầy Andrew Ng trên Coursera em nha
@Kubo9802
@Kubo9802 2 жыл бұрын
@@CodeXplore cho em xin nguồn những project hợp newbie với ạ , em mới học nên còn khá mông lung ạ. Em cảm ơn
@hoami8320
@hoami8320 Жыл бұрын
anh ơi em góp ý cái chỗ lấp dữ liệu null ấy mình nên thay thế đoạn đấy thành [data_df.fillna(data_df.mean() ,inplace=true) ] như này cấu trúc đơn giản dễ hiểu hơn mà lại nhanh gọn ạ ! Em cảm ơn vì bài giản , em chỉ muốn góp ý cho anh và mọi người có gì sai sót a cứ việc chỉ giáo !😁
@PhuongBui-tz2ms
@PhuongBui-tz2ms 11 ай бұрын
cho em hỏi nếu cột có giá trị string bị thiếu thì sao ạ
@tiepchu6650
@tiepchu6650 2 жыл бұрын
Anh nói dễ hiểu quá ạ. Anh có thể làm thêm Machine Learning cho người mới bắt đầu được ko ạ ?
@CodeXplore
@CodeXplore Жыл бұрын
Nhất định rồi em nhé
@khoanguyentien8449
@khoanguyentien8449 3 жыл бұрын
a cho e hỏi. khi encode column Country sau khi encode thì sẽ có phát sinh vector n cột tương ứng với value unique phải ko ạ. Nếu đúng như vậy thì với tập data lớn giá trị unique quá lớn thì làm sao mình kiểm soát số cột phát sinh để khi xử lý những cột phía sau ạ. tks a.
@CodeXplore
@CodeXplore 3 жыл бұрын
Một câu hỏi rất hay ! Chính xác rồi em nhé, số n cột sinh ra tương ứng vs unique values trong cột country. Đối với trường hợp có nhiều giá trị unique values, chúng ta có thể dùng kiểu encode khác thay cho One Hote Encoder, vd như Binary Encoder để chuyển về dạng một dãy nhị phân em nhé: contrib.scikit-learn.org/category_encoders/binary.html
@khoanguyentien8449
@khoanguyentien8449 3 жыл бұрын
@@CodeXplore A có dự định làm series về data engineering ko ạ.
@hoangdung2213
@hoangdung2213 3 жыл бұрын
Hi vọng anh làm thêm về các thuật toán machine learning ak
@CodeXplore
@CodeXplore 3 жыл бұрын
Nhất Định rồi nhé em !
@chilamnguyen1964
@chilamnguyen1964 2 жыл бұрын
Cảm ơn ad
@nghiahuynh3416
@nghiahuynh3416 3 жыл бұрын
Hay lắm người anh em :>
@trandanh_nietisland5929
@trandanh_nietisland5929 3 жыл бұрын
a ơi cho em hỏi là mình StandardScaler dữ liệu train rồi khi dự đoán với dữ liệu thực thì làm thế nào ạ? mong được a rep
@minhdao1622
@minhdao1622 3 жыл бұрын
Hay quá b ơi , b có thể hướng dẫn sâu hơn về sckit learrn cho bước tiếp theo ko . Cảm ơn b nhiều
@CodeXplore
@CodeXplore 3 жыл бұрын
Nhất định r b nhé !
@doducanh5098
@doducanh5098 Жыл бұрын
Anh có thể ra thêm cách làm bảng dashboard cho power BI hay Tableau mà khi mình đã có phân tích trên file jupyter notebook được ko a. Kiểu 1 dạng project end to end ấy. Cám ơn a
@namquach73
@namquach73 3 жыл бұрын
hay lắm ạ
@CodeXplore
@CodeXplore 3 жыл бұрын
Cảm ơn em
@hungletri3550
@hungletri3550 3 жыл бұрын
23:03 e đang k chọn đc các cốt cần convert như mong muốn ạ. em convert cột 1 2 4 thì cột 4 bị đổi chỗ cho cột 3
@ThaoQuynh-c8g
@ThaoQuynh-c8g 8 ай бұрын
A ơi, a có thể ra video giải thích về PCA được ko ạ? Cách code nữa ạ. Em cảm ơn nhiều
@theanhbui4259
@theanhbui4259 2 жыл бұрын
x_train[:,3:] = sc.fit_transform(x_train[:,3:]) x_test[:,3:] = sc.transform(x_test[:,3:]) Hi ad mình đang xem đoạn này, mình đang k hiểu tại sao x_train thì có dùng fit còn x test thì không. fit_transtorm với transform khác nhau chỗ nào vậy ad.
@TinLee99
@TinLee99 11 ай бұрын
fit để model học các dữ liệu mà mình đưa vào, transform để chuyển đổi dữ liệu được đưa vào đó về cùng range với nhau. x_test không được fit vì 2 lý do chính: (1) ta đã fit xtrain rồi, tức là model đã học từ các dữ liệu của x_ train, mà dữ liệu của x_train thì cũng tương tự x_test vì nó cùng 1 cột mà ra (2) ta không được fit x test vì khi fit x test thì model có thể học dữ liệu của x test điều này gây ra data leakage khiến việc dữ đoán có thể ko chính xác dẫn đến overfitting
@lochuynh6734
@lochuynh6734 3 жыл бұрын
Trời ơi hóng vd anh mãi
@CodeXplore
@CodeXplore 3 жыл бұрын
Hehe, sơ rì vì đã để em phải đợi lâu nhé !
@quynhvo2113
@quynhvo2113 3 жыл бұрын
Anh có thể làm tiếp về select feature được không ạ. Cảm ơn anh rất nhiều!
@blackholeschanel8713
@blackholeschanel8713 2 жыл бұрын
Anh cho em hỏi là ở phần Cleaning Data thì mình dùng method "fillna()" của Pandas tốc độ nó có chậm hơn cách làm của anh trong video không ạ?
@thuonghater2001
@thuonghater2001 3 жыл бұрын
Em đang muốn theo học machine learning, theo e tìm hiều thì mới một framework là scikitlearn, a cho e hỏi ngoài ra mình cần học nhưng frame work gì ạ
@CodeXplore
@CodeXplore 3 жыл бұрын
Em có thể học Tensorflow hoặc PyTorch em nhé !
@minhphambinh2944
@minhphambinh2944 6 ай бұрын
hay quá anh ơi
@MyNguyen-wz3fd
@MyNguyen-wz3fd 2 жыл бұрын
Anh ơi cho em hỏi với ạ. Sau khi tách data xong thì làm thế nào để lưu file về máy dưới dạng csv file ạ?. Em cảm ơn anh
@tranaitai2035
@tranaitai2035 3 жыл бұрын
a có thể ra thêm video hướng dẫn dùng pipeline trong tiền xử lý dữ liệu k a
@TinLee99
@TinLee99 11 ай бұрын
mn cho e hỏi, theo kiến thức e được học thì ta phải tách dữ liệu trước, sau đó mới bắt đầu preprocessing vì khi ta không tách mà ta fit_ transform toàn bộ dữ liệu như vậy sẽ có thể bị data leakage khiến model có thể overfitting nhỉ
@anhtuanmai537
@anhtuanmai537 2 жыл бұрын
hay quá a
@CodeXplore
@CodeXplore 2 жыл бұрын
Cảm ơn em nha !
@duynghiavo7915
@duynghiavo7915 Жыл бұрын
Anh ơi cho em hỏi khi dữ liệu có đến 100 dòng thì làm sao dùng heatmap để show ra dữ liệu bị thiếu được ạ. Vì lúc này biểu đồ nhỏ nên nó chia trục dọc ra thành 0 - 4 - 8 - 12 ...... chứ không phải chia dữ liệu trục dọc ra thành 0 -1 - 2 - .... như dữ liệu chỉ có 10 dòng của anh. Làm cho các dữ liệu ở các vị trí như ( 1,2,3 hay 5,6,7) là các vị trí bị thiếu thì nó không show ra trên hình được ạ. Anh giúp em fix chỗ này với ạ. Em cảm ơn anh
@HolyNies
@HolyNies 2 жыл бұрын
Cho hỏi cái feature scaling nên làm trước khi hay sau khi train-split mình và cô giáo của mình cũng cãi nhau vài tuần vì cái vụ scale này thank chủ kênh nhé
@CodeXplore
@CodeXplore 2 жыл бұрын
You are welcome bạn !
@mquan147
@mquan147 Жыл бұрын
phải scaled trước chứ nhỉ
@minhnghia107
@minhnghia107 3 жыл бұрын
Anh ơi, ví dụ mình muốn tìm các datasets để luyện tập thì nên tìm ở đâu nhỉ?
@CodeXplore
@CodeXplore 3 жыл бұрын
Ở Kaggle em nhé !
@minhnghia107
@minhnghia107 3 жыл бұрын
@@CodeXplore Tks anh, mong a ra thêm về Machine Learning 😉
@khongbietattengi8411
@khongbietattengi8411 3 жыл бұрын
Mong anh dạy em cách tạo một app trợ lý ảo đơn giản bằng tkinter và video F.R.I.D.A.Y trc của anh ạ ! Em cảm ơn.
@CodeXplore
@CodeXplore 3 жыл бұрын
Nhất định rồi em nhé ! Hi vọng video hữu ích vs em !
@huyenbuikhanh2510
@huyenbuikhanh2510 3 жыл бұрын
e hóng mãi
@CodeXplore
@CodeXplore 3 жыл бұрын
Hẹn em tối mai nhé ! Chúc em cuối tuần vui vẻ 😄
@r0cketRacoon
@r0cketRacoon 9 ай бұрын
a ơi e tưởng phải bỏ 1 column để tránh dummy variable trap chứ nhỉ?
@buukhanhong40
@buukhanhong40 3 жыл бұрын
Em ko hiểu chỗ random.seek(42) Nếu mình random mà không cần cái seek(42) nớ thì sao a nhỉ? Mong a giải đáp giúp em.
@CodeXplore
@CodeXplore 3 жыл бұрын
Hi em, thì kết quả mỗi lần chạy sẽ khác nhau. Mình fix seed thì kết quả mỗi lần chạy sẽ ra như nhau để vd mình có báo cáo thì số liệu không thay đổi em nhé
@mialam2318
@mialam2318 3 жыл бұрын
@@CodeXplore con số 42 này mình dựa vào đâu để lấy ạ? E cảm ơn
@Trungduc_8
@Trungduc_8 3 жыл бұрын
@@mialam2318 tùy ý bạn nhé. trong khoảng 2^32 thì phải
@vietongo8880
@vietongo8880 Жыл бұрын
qúa đỉnh
@phamthixuanhienvlog8983
@phamthixuanhienvlog8983 3 жыл бұрын
anh ơi làm về knowledge based recommendation systems in chọn course với anh
@CodeXplore
@CodeXplore 3 жыл бұрын
Good idea 👍 có j anh take note và làm nha
@phamthixuanhienvlog8983
@phamthixuanhienvlog8983 3 жыл бұрын
@@CodeXplore dạ dạ em cảm ơn anh
@CodeXplore
@CodeXplore 3 жыл бұрын
@@phamthixuanhienvlog8983 you re welcome em !
@tuanbaothan4244
@tuanbaothan4244 2 жыл бұрын
Ae cho em hỏi tổ hợp phím để hiện gợi ý code được không ạ? em thử bấm ctrl + space như các IDE khác thì k đc ạ. Cảm ơn mn
@huytang8398
@huytang8398 3 жыл бұрын
đây có thể xem là một chương trình hoàn chỉnh dùng để thuyết trình không ạ, mình là sinh viên năm 2 ạ
@matsuatrai6259
@matsuatrai6259 3 жыл бұрын
Dạy Git-github đi a
@CodeXplore
@CodeXplore 3 жыл бұрын
Anh có làm series về Git rồi em tham khảo nha: kzbin.info/aero/PLJcWUrckOCKJ9cL3WtHhK_eHu5Q3aYnDs
@tranantony3009
@tranantony3009 3 жыл бұрын
Anh ơi cho em hỏi xíu : e ngồi code 1 lúc xong tắt máy đi ngủ, qua hôm sau bật tệp đó lên code tiếp thì nó báo lỗi ạ. cứ phải bấm vào từng dòng từ đầu xong bấm command enter để chạy lại từng dòng thì mới code tiếp đc ạ. :(
@CodeXplore
@CodeXplore 3 жыл бұрын
Em có thể Chọn option "Restart and Run All Cell" nhé, nó sẽ giúp em chạy lại các cell từ đầu tới cuối
@tranantony3009
@tranantony3009 3 жыл бұрын
@@CodeXplore dạ ok r anh ạ, c.ơn a nhiều ạ :D
@CodeXplore
@CodeXplore 3 жыл бұрын
@@tranantony3009 you re welcome em
@minhhuehoang1831
@minhhuehoang1831 3 жыл бұрын
Anh đang dùng máy tính gì ạ
@CodeXplore
@CodeXplore 3 жыл бұрын
Anh đang dùng con Macbook em nha !
@huongnguyenthiviet4658
@huongnguyenthiviet4658 3 жыл бұрын
anh ơi, tại sao X_train được fit mà X_test thì không vậy anh? em vẫn chưa hiểu rõ lắm
@nguyenhoangthanhminh7648
@nguyenhoangthanhminh7648 3 жыл бұрын
Tại vì nó train trên tập X_train rồi đó bạn X_train với X_test là tập con của X mà, nên feature scaling trên training set (tức X_train) có nhiều element hơn do đó X_test nên theo mean() với std() (công thức khúc 41:50) của X_train, theo mình hiểu là v á :3
@manhcuong193
@manhcuong193 3 жыл бұрын
@CodeXplore
@CodeXplore 3 жыл бұрын
😍
@bdepw5348
@bdepw5348 3 жыл бұрын
nhìn hơi lú :))
@CodeXplore
@CodeXplore 3 жыл бұрын
Xem đi xem lại ngâm cứu nha em ! Bởi vậy anh mới làm từng bước từng bước chứ làm project liền dễ bị nú :))
@CodeXplore
@CodeXplore 3 жыл бұрын
@DiwenD :D
@tutosolve
@tutosolve 2 жыл бұрын
quá lòng vòng , ko dễ hiểu lắm
Quando A Diferença De Altura É Muito Grande 😲😂
00:12
Mari Maria
Рет қаралды 40 МЛН
Lamborghini vs Smoke 😱
00:38
Topper Guild
Рет қаралды 69 МЛН
When Rosé has a fake Fun Bot music box 😁
00:23
BigSchool
Рет қаралды 6 МЛН
Tất cả các Hàm trong Machine Learning trong 20 phút
22:35
Việt Nguyễn AI
Рет қаралды 8 М.
Làm Quen với Pandas và DataFrame | Tự Học Data Science #1
42:45
3 Kỹ năng Excel quan trọng trong phân tích dữ liệu
24:41
Bạn chọn mô hình Machine/Deep Learning nào ?
13:16
Việt Nguyễn AI
Рет қаралды 5 М.
Quando A Diferença De Altura É Muito Grande 😲😂
00:12
Mari Maria
Рет қаралды 40 МЛН