chị ví dụ thêm về những dữ liệu không thể chia nhỏ được đi ạ, em chưa hình dung lắm
@MaiDE-uq7ws6 ай бұрын
ok, để hôm nào chị ra 1 video chỉ về chủ đề này thôi nhé, khi đó chắc em sẽ dễ hình dung hơn
@TruongDuyLong-BDCAT6 ай бұрын
Những bài giảng về bản chất cách hoạt động như thế này khá khó tìm. Cảm ơn chị ạ
@MaiDE-uq7ws6 ай бұрын
Khó tìm mà cũng khó xem nữa ý, hiu hiu. Cám ơn em đã thích những video của chị 🥰
@thanhhocdata6 ай бұрын
bài giảng dễ hiểu lắm chị ơi.❤
@MaiDE-uq7ws6 ай бұрын
Cám ơn em đã để lại cmt động viên chị ❤
@hieudinh60826 ай бұрын
Video chi tiết quá ạ em cảm ơn chị nhiều lắm ạ ❤
@MaiDE-uq7ws6 ай бұрын
cám ơn em nhiều, mong em sẽ luôn ủng hộ chị nhé ❤
@maingoclam38726 ай бұрын
Kiến thức rất hay ạ, chị có thể cho em hỏi các thông tin và công thức trong video có thể đọc hay nghiên cứu từ nguồn nào không ạ?
@MaiDE-uq7ws6 ай бұрын
chào em, cám ơn em đã có thắc mắc rất hay. Những công thức này là từ kinh nghiệm thực tế chạy và test spark nhiều lần rồi chị tự rút ra thôi, công thức này chỉ mang tính chất tham khảo chứ nó không phải là một công trình nghiên cứu khoa học nào cả :D
@morninglisten6 ай бұрын
Chị có thể chia sẻ về 1 số đồ án, project cho DE newbie đc ko ạ
@MaiDE-uq7ws6 ай бұрын
câu hỏi này chị cũng nhận được nhiều, chị chắc chắn sẽ ra một video về chủ đề này, em chờ nhé ;)
@channelzenduc28834 ай бұрын
chị có làm về Celery ko ạ? EM mong chị làm về Celery ạ em rất cảm ơn chị ạ
@MaiDE-uq7ws4 ай бұрын
Chị note yêu cầu của em rồi nhé, có dịp thích hợp chị sẽ ra video về chủ đề này :) Cám ơn em !
@tranthang21046 ай бұрын
Chị ơi, chị có thể giải thích cho em về kiến trúc master-slave của hadoop không ạ ? Em nắm sơ sơ được cấu trúc và cách hoạt động của HDFS và MapReduce rồi nhưng em vẫn mắc chỗ: nút nào được chỉ định làm master node thì nó vừa là namenode (trong vai trò lưu trữ), vừa là jobtracker (trong vai trò xử lý), các slave node tương tự là datanode và tasktracker HAY 1 nút namenode riêng, 1 nút jobtracker riêng, .... ạ! Mong được chị giải đáp thắc mắc ạ 😊😊
@MaiDE-uq7ws6 ай бұрын
ôi thần giao cách cảm, xem video mới nhất của chị nhé, nếu còn thắc mắc gì thì cmt hỏi chị thêm. Mà cái jobtracker là của Hadoop 1 rồi em nhé, hadoop 2 là bỏ jobtracker thay hết bằng yarn rồi
@tranthang21046 ай бұрын
@@MaiDE-uq7ws okiii chị ạ 😉😊
@BhNam-t2v6 ай бұрын
Bài giảng hay ạ
@MaiDE-uq7ws6 ай бұрын
cám ơn bạn nhiều !
@phucnguyencong1136 ай бұрын
Về công thức thứ nhất, chị có bảo là chi phí mở 1 file là 4 Mb, vậy tại sao trên tử số lại không có + 4 ạ?
@MaiDE-uq7ws6 ай бұрын
bởi vì công thức 1 nó chỉ là mở 1 file lớn thôi nên 4M so với kích thước của file đó thì không đáng kể, còn công thức thứ 2 là mình mở nhiều file nhỏ, nếu mở 100 file thì chi phí = 400M rồi, nó lớn nên cần tính vào.
@HuyQuang-xy7oh17 күн бұрын
e chào chị, e có dùng databrick community với 1 compute 2 cores, e có read 1 file csv 45MB, sau đó gõ orders_df.rdd.getNumPartitions() thì số partition lại là 8 ạ, mong chị giải đáp ạ
@MaiDE-uq7ws17 күн бұрын
chào em, em thử kiểm tra spark.conf.get("spark.sql.files.maxPartitionBytes") xem giá trị đang được set là bao nhiêu ?
@MaiDE-uq7ws e kiểm tra thì kết quả là '134217728b' chị ạ
@HuyQuang-xy7oh17 күн бұрын
chị ơi giá trị là '134217728b' ạ
@thanhhocdata6 ай бұрын
Chị ơi chị cho em hỏi là ở công thức thứ 2 có nhiều file ví dụ như các file có filesize khác nhau thì mình chọn cái nào ạ.
@MaiDE-uq7ws6 ай бұрын
mình lấy trung bình em nhé
@thanhhocdata6 ай бұрын
@@MaiDE-uq7ws da em cảm ơn chị
@nhunghoang20356 ай бұрын
chị ơi, nếu input của mình là data được đọc từ kafka topic thì số lượng partition của mình được tính như nào ạ. Em là newbie Spark và đang cần tối ưu pipeline xử lý dữ liệu đọc từ 2 topic kafka (1 topic có 20 partition và 1 topic 1 partition), spark application không có wide transformation, đang được setup 21 executor (mỗi executor 1 core 1G, mong muốn xử lý 21 task đồng thời), nhưng khi em quan sát trên Spark UI thì chỉ có 3-4 task được xử lý đồng thời. Mong chị ra các video có ví dụ với luồng xử lý input từ kafka.
@MaiDE-uq7ws6 ай бұрын
với kafka thì hơi phức tạp hơn xíu, trong 1 cmt như thế này thì chị không thể giải thích chi tiết và rõ ràng được. Chị sẽ note yêu cầu của em nhé. Thời điểm thích hợp chị sẽ ra video về chủ đề này. Chị thấy Kafka cũng là một chủ đề thú vị và quan trọng, nên chắc chắn chị sẽ làm một số video về kafka.
@inhhieu78166 ай бұрын
dạ hay quá chị ơi
@MaiDE-uq7ws6 ай бұрын
Cám ơn em đã thích và cmt ủng hộ chị :)
@nguyenvanhao52506 ай бұрын
Dạ chị ơi em có thắc mắc là nếu đầu vào nhiều file mà mỗi file kích thước chênh lệch nhau nhiều thì công thức kia mình lấy trung bình được không ạ? Và nếu (128/filesize + 4) chia ra số lẻ thì mình luôn làm tròn về số nguyên nhỏ hơn nó hả chị. Chị giải đáp giúp em với ạ, em cảm ơn ☺️.
@MaiDE-uq7ws6 ай бұрын
Đúng rồi em nhé, nếu các file kích thước chênh lệch nhiều thì mình lấy trung bình. Còn nếu chia ra số lẻ thì mình sẽ làm tròn dựa theo quy tắc sau dấu thập phân, cứ dưới 5 thì làm tròn xuống, trên 5 thì làm tròn lên. Tuy nhiên công thức tính này sẽ chỉ tương đối thôi, vào bài toán cụ thể, chúng ta có thể điều chỉnh để có được số lượng partition tối ưu nhất. Vậy nên Spark tuy rất mạnh trong việc tự tối ưu hóa, nhưng công việc của những người DE như chúng ta là hiểu Spark mạnh như thế nào để điều khiển được sức mạnh đó một cách hợp lý nhất. Khi em đã hiểu nguyên lý và cách hoạt động của spark, em có thể tự test để điều chỉnh các thông số cho phù hợp với từng bài toán cụ thể.