Spark chia dữ liệu thành nhiều phần như thế nào ? (Câu hỏi phỏng vấn technique)

Рет қаралды 1,780

Mai DE

Күн бұрын

Пікірлер: 42

@dangkhanhtran8775 4 ай бұрын

xin hãy chỉ em cách để có những hiểu biết này ạ .

@MaiDE-uq7ws 4 ай бұрын

xem tất cả những video của chị là được 😁

@flynn3103 6 ай бұрын

chị ví dụ thêm về những dữ liệu không thể chia nhỏ được đi ạ, em chưa hình dung lắm

@MaiDE-uq7ws 6 ай бұрын

ok, để hôm nào chị ra 1 video chỉ về chủ đề này thôi nhé, khi đó chắc em sẽ dễ hình dung hơn

@TruongDuyLong-BDCAT 6 ай бұрын

Những bài giảng về bản chất cách hoạt động như thế này khá khó tìm. Cảm ơn chị ạ

@MaiDE-uq7ws 6 ай бұрын

Khó tìm mà cũng khó xem nữa ý, hiu hiu. Cám ơn em đã thích những video của chị 🥰

@thanhhocdata 6 ай бұрын

bài giảng dễ hiểu lắm chị ơi.❤

@MaiDE-uq7ws 6 ай бұрын

Cám ơn em đã để lại cmt động viên chị ❤

@hieudinh6082 6 ай бұрын

Video chi tiết quá ạ em cảm ơn chị nhiều lắm ạ ❤

@MaiDE-uq7ws 6 ай бұрын

cám ơn em nhiều, mong em sẽ luôn ủng hộ chị nhé ❤

@maingoclam3872 6 ай бұрын

Kiến thức rất hay ạ, chị có thể cho em hỏi các thông tin và công thức trong video có thể đọc hay nghiên cứu từ nguồn nào không ạ?

@MaiDE-uq7ws 6 ай бұрын

chào em, cám ơn em đã có thắc mắc rất hay. Những công thức này là từ kinh nghiệm thực tế chạy và test spark nhiều lần rồi chị tự rút ra thôi, công thức này chỉ mang tính chất tham khảo chứ nó không phải là một công trình nghiên cứu khoa học nào cả :D

@morninglisten 6 ай бұрын

Chị có thể chia sẻ về 1 số đồ án, project cho DE newbie đc ko ạ

@MaiDE-uq7ws 6 ай бұрын

câu hỏi này chị cũng nhận được nhiều, chị chắc chắn sẽ ra một video về chủ đề này, em chờ nhé ;)

@channelzenduc2883 4 ай бұрын

chị có làm về Celery ko ạ? EM mong chị làm về Celery ạ em rất cảm ơn chị ạ

@MaiDE-uq7ws 4 ай бұрын

Chị note yêu cầu của em rồi nhé, có dịp thích hợp chị sẽ ra video về chủ đề này :) Cám ơn em !

@tranthang2104 6 ай бұрын

Chị ơi, chị có thể giải thích cho em về kiến trúc master-slave của hadoop không ạ ? Em nắm sơ sơ được cấu trúc và cách hoạt động của HDFS và MapReduce rồi nhưng em vẫn mắc chỗ: nút nào được chỉ định làm master node thì nó vừa là namenode (trong vai trò lưu trữ), vừa là jobtracker (trong vai trò xử lý), các slave node tương tự là datanode và tasktracker HAY 1 nút namenode riêng, 1 nút jobtracker riêng, .... ạ! Mong được chị giải đáp thắc mắc ạ 😊😊

@MaiDE-uq7ws 6 ай бұрын

ôi thần giao cách cảm, xem video mới nhất của chị nhé, nếu còn thắc mắc gì thì cmt hỏi chị thêm. Mà cái jobtracker là của Hadoop 1 rồi em nhé, hadoop 2 là bỏ jobtracker thay hết bằng yarn rồi

@tranthang2104 6 ай бұрын

@@MaiDE-uq7ws okiii chị ạ 😉😊

@BhNam-t2v 6 ай бұрын

Bài giảng hay ạ

@MaiDE-uq7ws 6 ай бұрын

cám ơn bạn nhiều !

@phucnguyencong113 6 ай бұрын

Về công thức thứ nhất, chị có bảo là chi phí mở 1 file là 4 Mb, vậy tại sao trên tử số lại không có + 4 ạ?

@MaiDE-uq7ws 6 ай бұрын

bởi vì công thức 1 nó chỉ là mở 1 file lớn thôi nên 4M so với kích thước của file đó thì không đáng kể, còn công thức thứ 2 là mình mở nhiều file nhỏ, nếu mở 100 file thì chi phí = 400M rồi, nó lớn nên cần tính vào.

@HuyQuang-xy7oh 17 күн бұрын

e chào chị, e có dùng databrick community với 1 compute 2 cores, e có read 1 file csv 45MB, sau đó gõ orders_df.rdd.getNumPartitions() thì số partition lại là 8 ạ, mong chị giải đáp ạ

@MaiDE-uq7ws 17 күн бұрын

chào em, em thử kiểm tra spark.conf.get("spark.sql.files.maxPartitionBytes") xem giá trị đang được set là bao nhiêu ?

@HuyQuang-xy7oh 17 күн бұрын

@MaiDE-uq7ws chị ơi, kết quả là '134217728b' ạ

@HuyQuang-xy7oh 17 күн бұрын

@MaiDE-uq7ws e kiểm tra thì kết quả là '134217728b' chị ạ

@HuyQuang-xy7oh 17 күн бұрын

chị ơi giá trị là '134217728b' ạ

@thanhhocdata 6 ай бұрын

Chị ơi chị cho em hỏi là ở công thức thứ 2 có nhiều file ví dụ như các file có filesize khác nhau thì mình chọn cái nào ạ.

@MaiDE-uq7ws 6 ай бұрын

mình lấy trung bình em nhé

@thanhhocdata 6 ай бұрын

@@MaiDE-uq7ws da em cảm ơn chị

@nhunghoang2035 6 ай бұрын

chị ơi, nếu input của mình là data được đọc từ kafka topic thì số lượng partition của mình được tính như nào ạ. Em là newbie Spark và đang cần tối ưu pipeline xử lý dữ liệu đọc từ 2 topic kafka (1 topic có 20 partition và 1 topic 1 partition), spark application không có wide transformation, đang được setup 21 executor (mỗi executor 1 core 1G, mong muốn xử lý 21 task đồng thời), nhưng khi em quan sát trên Spark UI thì chỉ có 3-4 task được xử lý đồng thời. Mong chị ra các video có ví dụ với luồng xử lý input từ kafka.

@MaiDE-uq7ws 6 ай бұрын

với kafka thì hơi phức tạp hơn xíu, trong 1 cmt như thế này thì chị không thể giải thích chi tiết và rõ ràng được. Chị sẽ note yêu cầu của em nhé. Thời điểm thích hợp chị sẽ ra video về chủ đề này. Chị thấy Kafka cũng là một chủ đề thú vị và quan trọng, nên chắc chắn chị sẽ làm một số video về kafka.

@inhhieu7816 6 ай бұрын

dạ hay quá chị ơi

@MaiDE-uq7ws 6 ай бұрын

Cám ơn em đã thích và cmt ủng hộ chị :)

@nguyenvanhao5250 6 ай бұрын

Dạ chị ơi em có thắc mắc là nếu đầu vào nhiều file mà mỗi file kích thước chênh lệch nhau nhiều thì công thức kia mình lấy trung bình được không ạ? Và nếu (128/filesize + 4) chia ra số lẻ thì mình luôn làm tròn về số nguyên nhỏ hơn nó hả chị. Chị giải đáp giúp em với ạ, em cảm ơn ☺️.

@MaiDE-uq7ws 6 ай бұрын

Đúng rồi em nhé, nếu các file kích thước chênh lệch nhiều thì mình lấy trung bình. Còn nếu chia ra số lẻ thì mình sẽ làm tròn dựa theo quy tắc sau dấu thập phân, cứ dưới 5 thì làm tròn xuống, trên 5 thì làm tròn lên. Tuy nhiên công thức tính này sẽ chỉ tương đối thôi, vào bài toán cụ thể, chúng ta có thể điều chỉnh để có được số lượng partition tối ưu nhất. Vậy nên Spark tuy rất mạnh trong việc tự tối ưu hóa, nhưng công việc của những người DE như chúng ta là hiểu Spark mạnh như thế nào để điều khiển được sức mạnh đó một cách hợp lý nhất. Khi em đã hiểu nguyên lý và cách hoạt động của spark, em có thể tự test để điều chỉnh các thông số cho phù hợp với từng bài toán cụ thể.

@nguyenvanhao5250 6 ай бұрын

@@MaiDE-uq7ws Dạ em cảm ơn chị nhiều.