Jupyter Notebook cũng như dữ liệu của bài học hôm nay, các bạn có thể tải xuống tại Github Repo Link: ✪ Jupyter Notebook & CSV của Video: github.com/CodexploreRepo/data_science/tree/main/Code/P01_Pre_Processing Ai muốn làm nội dung gì thì comment bên dưới cho CodeXplore biết nha :)
@nam2222nam Жыл бұрын
Rất ý nghĩa từ nội dung đến cách chia sẻ và cách sống!🎉
@CodeXplore Жыл бұрын
Cảm ơn bạn đã ủng hộ 👏
@vutran-pj8zf3 жыл бұрын
trước tiền xử lí data thì có bước thu thập dữ liệu (Crawling data) , hiện tại python có selenium crawl nhưng khá lâu , bs4 thì nhanh hơn nhưng ko làm việc với js , scrapy nhanh nhất nhưng muốn crawling website code bằng js cần docker + flash . Hi vọng ae admin kênh làm 1 khóa scrapy +docker+flash để crawl những web code bằng js ( shopee , lazada , tiki ,vv...vv) e xin cảm ơn !
@CodeXplore3 жыл бұрын
Wow good suggestion ! Anh sẽ note và làm em nhé ! Cảm ơn em đã luôn ủng hộ CodeXplore !
@minhdao16223 жыл бұрын
hay quá , mình cũng đang cần cái này. Hi vọng ad làm series về crawling data nữa thì quá tuyệt
@PhuongPham-ox6seАй бұрын
Rất bổ ích, mình cảm ơn channel nhiều
@damnguyen35703 жыл бұрын
Bài giảng của anh rất hay và bao quát toàn bộ kiến thức. Hi vọng anh ra nhiều video ạ!
@CodeXplore3 жыл бұрын
Nhất định rồi em nhé ! cảm ơn em đã ủng hộ CodeXplore !
@TuAnh-vb3gr3 жыл бұрын
Em hóng series này ghê á, anh đến ngay lúc em đang cần để làm đồ án luôn. Hi vọng có 1 video nào đó kiểu 1 mô hình nhỏ mà có thể bao quát được ứng dụng thực tế luôn á.
@CodeXplore3 жыл бұрын
thế hả em ! Vinh dự quá, anh sẽ cố gắng em nhé !
@quangtran36043 жыл бұрын
Anh ra thêm về video data science tiếp đi anh, cứ cuối tuần em chờ suốt.
@CodeXplore3 жыл бұрын
Ok em, Team sẽ cố gắng nhé 😀
@minhnguyenhoang90563 жыл бұрын
cảm ơn a rất nhiều ạ. Mong a ra nhiều vid hơn về chủ đề khoa học dữ liệu
@CodeXplore3 жыл бұрын
Nhất định rồi em nhé ! Hi vọng video hữu ích vs em !
@trungnguyenthanh94553 жыл бұрын
Anh có thể làm một series về SQL với python được k ạ. A nói rất dễ hiểu. E cám ơn a ạ
@tuenguyen97223 жыл бұрын
Mong anh tiếp tục phát triển series này ạ. Quá hay luôn anh ơi
@CodeXplore3 жыл бұрын
Nhất định rồi em nhé !
@doyenn16123 жыл бұрын
Thanks a. Mong a ra video nhiều hơn ạ
@CodeXplore3 жыл бұрын
Nhất định rồi em nhé ! Hi vọng video hữu ích vs em !
@huynhvanthuan18382 жыл бұрын
Cảm ơn anh nhiều nhé! Em đã đăng ký kênh anh và bấm chuông thông báo rồi nha ^^
@tep676 ай бұрын
anh ra thêm video về machine learning, deep learning như này đi ạ hay quá luôn, học dễ hiểu lắm tr
@ndhieunguyen3 жыл бұрын
Anh giảng hay lắm ạ, hi vọng anh sẽ ra thêm video về Data Science
@CodeXplore3 жыл бұрын
Nhất định rồi em nhé ! Chúc em có một buổi tối vui vẻ
@truongchidien38103 жыл бұрын
Hề lấu em
@NGOCLETHITHAOАй бұрын
hành động thật ý nghĩa ạ
@nguyenannie94733 жыл бұрын
Video của a rất hay ạ! A ơi, bữa nào a làm video hướng dẫn kĩ thuật collect data trên web được không ạ! Cảm ơn a rất nhiều
@CodeXplore3 жыл бұрын
Cảm ơn em đã luôn ủng hộ team CodeXp;ore nhé !
@nguyenduong56633 жыл бұрын
yêu anh zai quá, e hóng lâu lắm rồi ạ
@CodeXplore3 жыл бұрын
Hehe thanks bro ! Hẹn em vào 7:30pm tối nay nhé !
@hienbui7423 Жыл бұрын
Cám ơn anh nhiều ạ
@CodeXplore Жыл бұрын
You re welcome em
@MaiNguyen-mt5ut3 жыл бұрын
rất dễ hiểu ạ, mong team ra nhiều sp hay !
@life-1193 Жыл бұрын
cám ơn bạn đã chia sẻ
@lyphuong33443 жыл бұрын
Video huong dan rat chi tiet, cam on anh :)
@CodeXplore3 жыл бұрын
You re welcome em
@quanghuytran56453 жыл бұрын
Video của anh hay quá ạ. Anh có thể chia sẻ thêm về một số nguồn học và khóa học về Machine Learning được không ạ??
@CodeXplore3 жыл бұрын
Em có thể làm các project trên Kaggle hoặc học course Machine Learning của thầy Andrew Ng trên Coursera em nha
@Kubo98022 жыл бұрын
@@CodeXplore cho em xin nguồn những project hợp newbie với ạ , em mới học nên còn khá mông lung ạ. Em cảm ơn
@hoami8320 Жыл бұрын
anh ơi em góp ý cái chỗ lấp dữ liệu null ấy mình nên thay thế đoạn đấy thành [data_df.fillna(data_df.mean() ,inplace=true) ] như này cấu trúc đơn giản dễ hiểu hơn mà lại nhanh gọn ạ ! Em cảm ơn vì bài giản , em chỉ muốn góp ý cho anh và mọi người có gì sai sót a cứ việc chỉ giáo !😁
@PhuongBui-tz2ms11 ай бұрын
cho em hỏi nếu cột có giá trị string bị thiếu thì sao ạ
@tiepchu66502 жыл бұрын
Anh nói dễ hiểu quá ạ. Anh có thể làm thêm Machine Learning cho người mới bắt đầu được ko ạ ?
@CodeXplore Жыл бұрын
Nhất định rồi em nhé
@khoanguyentien84493 жыл бұрын
a cho e hỏi. khi encode column Country sau khi encode thì sẽ có phát sinh vector n cột tương ứng với value unique phải ko ạ. Nếu đúng như vậy thì với tập data lớn giá trị unique quá lớn thì làm sao mình kiểm soát số cột phát sinh để khi xử lý những cột phía sau ạ. tks a.
@CodeXplore3 жыл бұрын
Một câu hỏi rất hay ! Chính xác rồi em nhé, số n cột sinh ra tương ứng vs unique values trong cột country. Đối với trường hợp có nhiều giá trị unique values, chúng ta có thể dùng kiểu encode khác thay cho One Hote Encoder, vd như Binary Encoder để chuyển về dạng một dãy nhị phân em nhé: contrib.scikit-learn.org/category_encoders/binary.html
@khoanguyentien84493 жыл бұрын
@@CodeXplore A có dự định làm series về data engineering ko ạ.
@hoangdung22133 жыл бұрын
Hi vọng anh làm thêm về các thuật toán machine learning ak
@CodeXplore3 жыл бұрын
Nhất Định rồi nhé em !
@chilamnguyen19642 жыл бұрын
Cảm ơn ad
@nghiahuynh34163 жыл бұрын
Hay lắm người anh em :>
@trandanh_nietisland59293 жыл бұрын
a ơi cho em hỏi là mình StandardScaler dữ liệu train rồi khi dự đoán với dữ liệu thực thì làm thế nào ạ? mong được a rep
@minhdao16223 жыл бұрын
Hay quá b ơi , b có thể hướng dẫn sâu hơn về sckit learrn cho bước tiếp theo ko . Cảm ơn b nhiều
@CodeXplore3 жыл бұрын
Nhất định r b nhé !
@doducanh5098 Жыл бұрын
Anh có thể ra thêm cách làm bảng dashboard cho power BI hay Tableau mà khi mình đã có phân tích trên file jupyter notebook được ko a. Kiểu 1 dạng project end to end ấy. Cám ơn a
@namquach733 жыл бұрын
hay lắm ạ
@CodeXplore3 жыл бұрын
Cảm ơn em
@hungletri35503 жыл бұрын
23:03 e đang k chọn đc các cốt cần convert như mong muốn ạ. em convert cột 1 2 4 thì cột 4 bị đổi chỗ cho cột 3
@ThaoQuynh-c8g8 ай бұрын
A ơi, a có thể ra video giải thích về PCA được ko ạ? Cách code nữa ạ. Em cảm ơn nhiều
@theanhbui42592 жыл бұрын
x_train[:,3:] = sc.fit_transform(x_train[:,3:]) x_test[:,3:] = sc.transform(x_test[:,3:]) Hi ad mình đang xem đoạn này, mình đang k hiểu tại sao x_train thì có dùng fit còn x test thì không. fit_transtorm với transform khác nhau chỗ nào vậy ad.
@TinLee9911 ай бұрын
fit để model học các dữ liệu mà mình đưa vào, transform để chuyển đổi dữ liệu được đưa vào đó về cùng range với nhau. x_test không được fit vì 2 lý do chính: (1) ta đã fit xtrain rồi, tức là model đã học từ các dữ liệu của x_ train, mà dữ liệu của x_train thì cũng tương tự x_test vì nó cùng 1 cột mà ra (2) ta không được fit x test vì khi fit x test thì model có thể học dữ liệu của x test điều này gây ra data leakage khiến việc dữ đoán có thể ko chính xác dẫn đến overfitting
@lochuynh67343 жыл бұрын
Trời ơi hóng vd anh mãi
@CodeXplore3 жыл бұрын
Hehe, sơ rì vì đã để em phải đợi lâu nhé !
@quynhvo21133 жыл бұрын
Anh có thể làm tiếp về select feature được không ạ. Cảm ơn anh rất nhiều!
@blackholeschanel87132 жыл бұрын
Anh cho em hỏi là ở phần Cleaning Data thì mình dùng method "fillna()" của Pandas tốc độ nó có chậm hơn cách làm của anh trong video không ạ?
@thuonghater20013 жыл бұрын
Em đang muốn theo học machine learning, theo e tìm hiều thì mới một framework là scikitlearn, a cho e hỏi ngoài ra mình cần học nhưng frame work gì ạ
@CodeXplore3 жыл бұрын
Em có thể học Tensorflow hoặc PyTorch em nhé !
@minhphambinh29446 ай бұрын
hay quá anh ơi
@MyNguyen-wz3fd2 жыл бұрын
Anh ơi cho em hỏi với ạ. Sau khi tách data xong thì làm thế nào để lưu file về máy dưới dạng csv file ạ?. Em cảm ơn anh
@tranaitai20353 жыл бұрын
a có thể ra thêm video hướng dẫn dùng pipeline trong tiền xử lý dữ liệu k a
@TinLee9911 ай бұрын
mn cho e hỏi, theo kiến thức e được học thì ta phải tách dữ liệu trước, sau đó mới bắt đầu preprocessing vì khi ta không tách mà ta fit_ transform toàn bộ dữ liệu như vậy sẽ có thể bị data leakage khiến model có thể overfitting nhỉ
@anhtuanmai5372 жыл бұрын
hay quá a
@CodeXplore2 жыл бұрын
Cảm ơn em nha !
@duynghiavo7915 Жыл бұрын
Anh ơi cho em hỏi khi dữ liệu có đến 100 dòng thì làm sao dùng heatmap để show ra dữ liệu bị thiếu được ạ. Vì lúc này biểu đồ nhỏ nên nó chia trục dọc ra thành 0 - 4 - 8 - 12 ...... chứ không phải chia dữ liệu trục dọc ra thành 0 -1 - 2 - .... như dữ liệu chỉ có 10 dòng của anh. Làm cho các dữ liệu ở các vị trí như ( 1,2,3 hay 5,6,7) là các vị trí bị thiếu thì nó không show ra trên hình được ạ. Anh giúp em fix chỗ này với ạ. Em cảm ơn anh
@HolyNies2 жыл бұрын
Cho hỏi cái feature scaling nên làm trước khi hay sau khi train-split mình và cô giáo của mình cũng cãi nhau vài tuần vì cái vụ scale này thank chủ kênh nhé
@CodeXplore2 жыл бұрын
You are welcome bạn !
@mquan147 Жыл бұрын
phải scaled trước chứ nhỉ
@minhnghia1073 жыл бұрын
Anh ơi, ví dụ mình muốn tìm các datasets để luyện tập thì nên tìm ở đâu nhỉ?
@CodeXplore3 жыл бұрын
Ở Kaggle em nhé !
@minhnghia1073 жыл бұрын
@@CodeXplore Tks anh, mong a ra thêm về Machine Learning 😉
@khongbietattengi84113 жыл бұрын
Mong anh dạy em cách tạo một app trợ lý ảo đơn giản bằng tkinter và video F.R.I.D.A.Y trc của anh ạ ! Em cảm ơn.
@CodeXplore3 жыл бұрын
Nhất định rồi em nhé ! Hi vọng video hữu ích vs em !
@huyenbuikhanh25103 жыл бұрын
e hóng mãi
@CodeXplore3 жыл бұрын
Hẹn em tối mai nhé ! Chúc em cuối tuần vui vẻ 😄
@r0cketRacoon9 ай бұрын
a ơi e tưởng phải bỏ 1 column để tránh dummy variable trap chứ nhỉ?
@buukhanhong403 жыл бұрын
Em ko hiểu chỗ random.seek(42) Nếu mình random mà không cần cái seek(42) nớ thì sao a nhỉ? Mong a giải đáp giúp em.
@CodeXplore3 жыл бұрын
Hi em, thì kết quả mỗi lần chạy sẽ khác nhau. Mình fix seed thì kết quả mỗi lần chạy sẽ ra như nhau để vd mình có báo cáo thì số liệu không thay đổi em nhé
@mialam23183 жыл бұрын
@@CodeXplore con số 42 này mình dựa vào đâu để lấy ạ? E cảm ơn
@Trungduc_83 жыл бұрын
@@mialam2318 tùy ý bạn nhé. trong khoảng 2^32 thì phải
@vietongo8880 Жыл бұрын
qúa đỉnh
@phamthixuanhienvlog89833 жыл бұрын
anh ơi làm về knowledge based recommendation systems in chọn course với anh
@CodeXplore3 жыл бұрын
Good idea 👍 có j anh take note và làm nha
@phamthixuanhienvlog89833 жыл бұрын
@@CodeXplore dạ dạ em cảm ơn anh
@CodeXplore3 жыл бұрын
@@phamthixuanhienvlog8983 you re welcome em !
@tuanbaothan42442 жыл бұрын
Ae cho em hỏi tổ hợp phím để hiện gợi ý code được không ạ? em thử bấm ctrl + space như các IDE khác thì k đc ạ. Cảm ơn mn
@huytang83983 жыл бұрын
đây có thể xem là một chương trình hoàn chỉnh dùng để thuyết trình không ạ, mình là sinh viên năm 2 ạ
@matsuatrai62593 жыл бұрын
Dạy Git-github đi a
@CodeXplore3 жыл бұрын
Anh có làm series về Git rồi em tham khảo nha: kzbin.info/aero/PLJcWUrckOCKJ9cL3WtHhK_eHu5Q3aYnDs
@tranantony30093 жыл бұрын
Anh ơi cho em hỏi xíu : e ngồi code 1 lúc xong tắt máy đi ngủ, qua hôm sau bật tệp đó lên code tiếp thì nó báo lỗi ạ. cứ phải bấm vào từng dòng từ đầu xong bấm command enter để chạy lại từng dòng thì mới code tiếp đc ạ. :(
@CodeXplore3 жыл бұрын
Em có thể Chọn option "Restart and Run All Cell" nhé, nó sẽ giúp em chạy lại các cell từ đầu tới cuối
@tranantony30093 жыл бұрын
@@CodeXplore dạ ok r anh ạ, c.ơn a nhiều ạ :D
@CodeXplore3 жыл бұрын
@@tranantony3009 you re welcome em
@minhhuehoang18313 жыл бұрын
Anh đang dùng máy tính gì ạ
@CodeXplore3 жыл бұрын
Anh đang dùng con Macbook em nha !
@huongnguyenthiviet46583 жыл бұрын
anh ơi, tại sao X_train được fit mà X_test thì không vậy anh? em vẫn chưa hiểu rõ lắm
@nguyenhoangthanhminh76483 жыл бұрын
Tại vì nó train trên tập X_train rồi đó bạn X_train với X_test là tập con của X mà, nên feature scaling trên training set (tức X_train) có nhiều element hơn do đó X_test nên theo mean() với std() (công thức khúc 41:50) của X_train, theo mình hiểu là v á :3
@manhcuong1933 жыл бұрын
@CodeXplore3 жыл бұрын
😍
@bdepw53483 жыл бұрын
nhìn hơi lú :))
@CodeXplore3 жыл бұрын
Xem đi xem lại ngâm cứu nha em ! Bởi vậy anh mới làm từng bước từng bước chứ làm project liền dễ bị nú :))