Kiến trúc của Spark

  Рет қаралды 2,822

Mai DE

Mai DE

Күн бұрын

Пікірлер: 54
@Phongtrung02
@Phongtrung02 25 күн бұрын
học 2 tuần ko bằng xem 1 video là có thật😂
@MaiDE-uq7ws
@MaiDE-uq7ws 25 күн бұрын
Em đang theo học 1 khóa DE nào đó à ?
@Phongtrung02
@Phongtrung02 24 күн бұрын
@MaiDE-uq7ws dạ không chị ạ, em ms làm DA nma cty xài pyspark nên em cũng phải học về hệ thống phân tán, video chị bổ ích quá ạ 😁
@MaiDE-uq7ws
@MaiDE-uq7ws 24 күн бұрын
@@Phongtrung02 cám ơn em :)
@mewacoustic4688
@mewacoustic4688 Ай бұрын
Chị ơi c có thể chia sẻ thêm về datafu spark ko ạ, chị có tài liệu về nó ko ạ
@MaiDE-uq7ws
@MaiDE-uq7ws Ай бұрын
chị note yêu cầu và sẽ cân nhắc nhé, vì thực sự datafu spark này nó không DE lắm, nó nghiêng nhiều về phân tích dữ liệu, thống kê nhiều hơn, phù hợp hơn cho DA, để DA chỉ cần dùng mà không cần viết lại logic từ đầu.
@vinhphuctruong7165
@vinhphuctruong7165 29 күн бұрын
Dạ vậy so với Application Master của Hadoop thì Application Master của Spark làm ít việc hơn đúng không ạ. Do AM của Hadoop phải giao tiếp với NameNode thông qua HDFS API để tính toán, còn bên Spark thì AM chỉ việc kết hợp với Driver Node thôi ạ
@MaiDE-uq7ws
@MaiDE-uq7ws 29 күн бұрын
Đúng rồi em :) Trong Spark, phần lớn logic xử lý và điều phối công việc được chuyển vào Driver vậy nên giúp giảm tải công việc của AM. Application Master chỉ cần đảm bảo các tài nguyên cần thiết được cấp phát và môi trường thực thi được thiết lập là ok
@vinhphuctruong7165
@vinhphuctruong7165 29 күн бұрын
Dạ em cảm ơn chị ạ. Về cơ bản thì các loại Resource Management khác tương tác với Spark cũng có cơ chế hoạt động giống như YARN phải không ạ
@MaiDE-uq7ws
@MaiDE-uq7ws 28 күн бұрын
@@vinhphuctruong7165 Đúng vậy, các loại Resource Management khác (như Kubernetes, Mesos, hay Standalone Mode của Spark) khi tương tác với Apache Spark cũng có cơ chế hoạt động tương tự như YARN về mặt quản lý tài nguyên và phân phối công việc. Tuy nhiên, mỗi hệ thống có những đặc điểm riêng, cách tổ chức và triển khai cụ thể khác nhau, cái này em tự tìm hiểu thêm nhé ;)
@vinhphuctruong7165
@vinhphuctruong7165 28 күн бұрын
@MaiDE-uq7ws Dạ vâng em cảm ơn chị ạ, chị có thể check mail cho em xin bộ dataset thực hành được không ạ.
@MaiDE-uq7ws
@MaiDE-uq7ws 27 күн бұрын
@@vinhphuctruong7165 ok, để chị check mail nhé
@sonlh81
@sonlh81 6 ай бұрын
Cho mình hỏi có thể đánh index trong spark ko, mình tìm hiểu qua thì nó nói là có nhưng có vẻ chưa rõ ràng lắm
@MaiDE-uq7ws
@MaiDE-uq7ws 6 ай бұрын
Thực ra nếu là đánh index như cách truyền thống của sql thì không, nhưng spark có hai cách khác đó là Bucketing và Z-Order cũng giúp cải thiện hiệu suất và ý tưởng cũng tương đương như việc dánh index, bạn tham khảo thêm nhé
@sonlh81
@sonlh81 6 ай бұрын
@@MaiDE-uq7ws Mình đã hiểu Bucketing rồi, cám ơn bạn, Z-Order chắc tìm hiểu sau vậy. Thằng spark này có cái nào để Schedule các job cần thực hiện giống như Cron job trên hangFire ko, hay phải dùng Air Flow hả bạn
@thangnguyen3786
@thangnguyen3786 4 ай бұрын
Em coi đi coi lại vài lần rồi. Hay và dễ hiểu quá chị
@MaiDE-uq7ws
@MaiDE-uq7ws 4 ай бұрын
cám ơn em 🥰
@ducanh_ng8357
@ducanh_ng8357 6 ай бұрын
Chị ơi cho em hỏi khi mình dùng pyspark trên laptop cá nhân thì mình không cần quan tâm đến việc cấu hình các worker node mà chỉ cần quan tâm đến việc cấu hình sparksession để dùng các tài nguyên trong máy đúng không ạ?
@MaiDE-uq7ws
@MaiDE-uq7ws 6 ай бұрын
đúng rồi em, khi dùng ở máy cá nhân thì chúng ta chỉ có duy nhất 1 node vừa làm driver vừa làm worker luôn, vậy nên việc tính toán song song là dựa duy nhất vào số lượng core của máy.
@datahype9251
@datahype9251 4 ай бұрын
Cám ơn vid hữu ích của chị, hi vọng chị mở thêm khóa học về DE, để dạy sâu hơn về Spark và DataBrick
@MaiDE-uq7ws
@MaiDE-uq7ws 4 ай бұрын
Cám ơn bạn, mong muốn này của bạn cũng là mong muốn của rất nhiều bạn, mình sẽ suy nghĩ và nếu sắp xếp được thời gian, mình sẽ thử xem có thật sự giúp được các bạn hơn không ?
@tranthang2104
@tranthang2104 6 ай бұрын
Chị ơi, chị có thể ra video cách setup cụm spark trên nhiều node (tối thiểu 2-3 node) được không ạ ?
@MaiDE-uq7ws
@MaiDE-uq7ws 6 ай бұрын
chị note yêu cầu nhé, một thời điểm thích hợp chị sẽ ra video về chủ đề này :)
@nhattuyen1123
@nhattuyen1123 6 ай бұрын
Chị cho e hỏi, e thấy trong requirement (các job DE), còn có yc về AWS (S3, Redshift...), vậy một DE cần biết những thứ đó ở mức nào, hay chỉ cần biết load và lưu data trên đấy thôi vậy chị
@MaiDE-uq7ws
@MaiDE-uq7ws 6 ай бұрын
Cái này tùy level em, nếu chỉ là intern hay fresher thôi thì cũng chưa cần lắm đâu, chỉ cần biết khái niệm cơ bản là được. Còn những vị trí bắt đầu từ junior trở lên thì cũng cần biết dùng một chút, kiểu như em nói là load và lưu data, sau đó khi lên senior thì cần biết sâu hơn, không chỉ S3 Redshift mà còn cần biết cả glue, EMR, EC2, Lambda...
@nhattuyen1123
@nhattuyen1123 6 ай бұрын
@@MaiDE-uq7ws e cảm ơn ạ
@giabinhhoang2351
@giabinhhoang2351 5 ай бұрын
hay quá chị ơi. Trước h toàn xem của mấy ô ấn không hiểu nói j luôn. ước có kênh youtube dạy bằng tiếng mẹ đẻ
@MaiDE-uq7ws
@MaiDE-uq7ws 5 ай бұрын
cám ơn em đã thích, mong sẽ nhận được sự ủng hộ dài dài từ em nhé ;)
@thanhhocdata
@thanhhocdata 6 ай бұрын
Mong chị làm video về triển khai các công nghệ như spark hadooo bằng docker và cách config ạ.
@MaiDE-uq7ws
@MaiDE-uq7ws 6 ай бұрын
Mình note yêu cầu của bạn rồi nhé, có thời gian thích hợp mình sẽ ra video về chủ đề này
@QuangTran-yx7tg
@QuangTran-yx7tg 6 ай бұрын
Chị nghĩ sao về Trino. Công ty e đang nghiên cứu triển khai Trino thay cho Spark . Trino bọn e test hiệu năng thấy nó thực sự vượt trội hơn spark
@duongtruong5691
@duongtruong5691 6 ай бұрын
Trino là MPP, nó cần resource để duy trì chứ không như spark khi nào cần thì mới bắt đầu khởi tạo executor. Trino chỉ phù hợp cho query việc truy vấn, còn việc cần transform data phức tạp cũng như chịu lỗi tốt thì Spark ăn đứt
@MaiDE-uq7ws
@MaiDE-uq7ws 6 ай бұрын
Cái này tùy vào từng project cụ thể và nhu cầu của từng doanh nghiệp. Trino thì hiệu suất cao do các worker nodes luôn sẵn sàng, nhưng vì để các worker nodes luôn sẵn sàng thì tài nguyên phải được duy trì liên tục (ngay khi không có truy vấn). Spark thì linh hoạt hơn, khi nào cần thì mới khởi tạo tài nguyên cho các job, nhưng cũng chính vì vậy nên có độ trễ của việc khởi tạo tài nguyên, dẫn đến hiệu suất so với Trino có thấp hơn một chút. Đổi lại thì Spark lại giúp giảm chi phí vì không cần duy trì tài nguyên liên tục. Ngoài ra spark còn linh hoạt ở khả năng scale up và scale down tài nguyên, nghĩa là nếu dữ liệu mà thay đổi liên tục thì spark sẽ co giãn tốt hơn là Trino. Thêm nữa, Spark còn có nhiều thư viện phong phú tích hợp sẵn để xử lý nhiều công việc và tác phụ phức tạp khác nhau như MLib, GraphX, Streaming, Trino thì chỉ tập trung vào SQL thôi.
@khacquyinh3476
@khacquyinh3476 5 ай бұрын
Khi triển khai, để đảm bảo sự ổn định về mặt tài nguyên giữa các dịch vụ, Trino sẽ được cấp một lượng tài nguyên riêng cho nó, nên sẽ không lo lắng về vấn đề duy trì tài nguyên của Trino. Trino xử lý tốt cho bài toán, là cần một cách đơn giản và thời gian chạy query nhanh để query được nhiều loại nguồn data khác nhau như postgres, mysql, mongodb, kafka, v.v. Spark tốt cho việc ETL lượng data lớn và transform phức tạp, thời gian query sẽ chậm hơn Trino. Về khả năng chịu lỗi, Spark tốt hơn Trino.
@khacquyinh3476
@khacquyinh3476 5 ай бұрын
- Khả năng chịu lỗi và thời gian xử lý query: Spark chịu lỗi tốt hơn Trino. Trino chạy query nhanh hơn Spark. Do Trino lập lịch tối ưu cho xử lý song song theo fragment-based. Spark dựa theo stage-based, một query sẽ được tạo các stages tuần tự xử lý, một stage gồm nhiều tasks xử lý song song. Lineage trong stage-based là một cách giúp Spark chịu lỗi tốt hơn, tối ưu trong việc xử lý lỗi. - Truy vấn trên nhiều loại nguồn dữ liệu khác nhau: Là điểm mạnh có Trino. Trino hỗ trợ cài đặt và truy vấn xử lý từ nhiều nguồn đơn giản hơn Spark. - Tài nguyên: Các dịch vụ khi triển khai thực tế đều sẽ được cấp phát lượng tài nguyên nhất định riêng biệt, để đảm bảo sự ổn định của dịch vụ đó. Spark hoàn toàn hỗ trợ long-life app cho truy vấn SQL như Trino, khi đó không cần phải spark submit jobs. Trino phù hợp cho bài toán cần một cách đơn giản và query nhanh cho query trên nhiều loại sources khác nhau. Spark phù hợp cho bài toán cần xử lý biến đổi (transformation) phức tạp, tính ổn định cao, thời gian xử lý chấp nhận được, cũng hỗ trợ API đa dạng và thân thiện.
@TanLuke2003
@TanLuke2003 6 ай бұрын
cho em hỏi Application master chỉ tạo trên duy nhất 1 Worker Node thôi hay sao a. Hay là mỗi Worker Node đều có một Application master riêng cho nó để tính toán mỗi worker node đó cần bao Ram hay Core ah
@MaiDE-uq7ws
@MaiDE-uq7ws 6 ай бұрын
đúng rồi, application master (AM) chỉ tạo trên duy nhất 1 worker node thôi, và nó sẽ được dùng để tính toán tài nguyên cho tất cả các worker node trong hệ thống, spark không tạo AM riêng cho mỗi worker node.
@nguyenucnam8626
@nguyenucnam8626 6 ай бұрын
thumbnail cute quá chị
@MaiDE-uq7ws
@MaiDE-uq7ws 6 ай бұрын
ôi, lần đầu có người để ý cái thumbnail của tui. Cám ơn em nhiều, chắc em cũng cute lắm đúng không ? 🥰
@duyinh1734
@duyinh1734 6 ай бұрын
em dang di intern DE khong luong o mot cong ty co tieng la lua ga nan qua chi oi huhu
@MaiDE-uq7ws
@MaiDE-uq7ws 6 ай бұрын
Ủa, sao em biết lùa gà mà vẫn làm? Liệu có thật là lùa gà không, hay chỉ là tin đồn thôi. Nếu em thấy công ty không ok thì nên tìm chỗ khác cho đỡ mất thời gian ý
@hoannguyenvan9947
@hoannguyenvan9947 6 ай бұрын
Hay quá chị ơi! Mong chị làm video hướng dẫn làm project thực tế trên Databricks 😍
@MaiDE-uq7ws
@MaiDE-uq7ws 6 ай бұрын
nhất định sẽ có nhé, chỉ là bao lâu thôi. Nhiều chủ đề chị muốn làm quá mà không cách nào nhân đôi nhân ba bản thân lên được
@kimanhtran9829
@kimanhtran9829 5 ай бұрын
chị ơi ph học cả hadoop và spark ạ
@MaiDE-uq7ws
@MaiDE-uq7ws 5 ай бұрын
Không cần đâu em, học luôn spark là được em nhé, giờ các công ty xử lý bigdata dùng spark nhiều lắm rồi !
@grabtv4211
@grabtv4211 6 ай бұрын
Deploy on-premise spark ổn ko Mai. Có video chưa nhỉ
@sherip008
@sherip008 6 ай бұрын
@MaiDE-uq7ws
@MaiDE-uq7ws 6 ай бұрын
@sonlh81
@sonlh81 6 ай бұрын
Mình chuyển hướng sang làm DE, vốn là chỉ đọc thôi, nhưng sáng nay đọc bài của bạn về tài liệu DE free, tự nhiên cảm thấy hơi xáu hổ vì đúng là nợ bạn 1 comment. không nhũng bạn mà mình nợ những người có tám lòng đóng góp cho cộng đông như bạn, một lời khích lê. Dù có thể chả là gì nhưng mình vẫn comment. Và mong kiến thức của bạn sẽ được mọi người chia sẻ và giúp đỡ được nhiều người hơn nữa
@MaiDE-uq7ws
@MaiDE-uq7ws 6 ай бұрын
Cám ơn cmt của bạn. Chia sẻ thật là để làm ra 1 video techniqe tốn rất nhiều thời gian và công sức, dù biết trước khi làm là sẽ không có nhiều người xem như là những video về giải trí hay những chủ đề non-tech, nhưng mình vẫn làm vì mình tin là ai thật sự cần thì sẽ thấy video của mình hay và hữu ích, còn những ai không cần thì không phải là đối tượng mình hướng đến. Vậy nên những cmt, like của mọi người khi xem video sẽ truyền động lực rất nhiều cho mình. Và thật sự, khi làm video, mình cũng chỉ mong được nhìn thấy những tương tác thật từ người xem để có thể chia sẻ nhiều kiến thức hơn. Một lần nữa, cám ơn bạn rất nhiều vì đã bỏ thời gian ra để cmt, nó rất ý nghĩa với mình.
@tienta4424
@tienta4424 5 ай бұрын
Bạn cho mình link hay tài liệu bạn đề cập đươc không ạ?
@xuyen17
@xuyen17 6 ай бұрын
🥰🥰
@MaiDE-uq7ws
@MaiDE-uq7ws 6 ай бұрын
cám ơn em nhiều 🥰
So Cute 🥰 who is better?
00:15
dednahype
Рет қаралды 19 МЛН
Что-что Мурсдей говорит? 💭 #симбочка #симба #мурсдей
00:19
My scorpion was taken away from me 😢
00:55
TyphoonFast 5
Рет қаралды 2,7 МЛН
Правильный подход к детям
00:18
Beatrise
Рет қаралды 11 МЛН
Micro1 Sem 4.9
46:58
Полина Королева
Рет қаралды 279
Quản lý bộ nhớ trong PySpark
14:47
Mai DE
Рет қаралды 166
Sự khác nhau giữa ETL vs ELT
4:32
Mai DE
Рет қаралды 2,6 М.
So Cute 🥰 who is better?
00:15
dednahype
Рет қаралды 19 МЛН