@MaiDE-uq7ws dạ không chị ạ, em ms làm DA nma cty xài pyspark nên em cũng phải học về hệ thống phân tán, video chị bổ ích quá ạ 😁
@MaiDE-uq7ws24 күн бұрын
@@Phongtrung02 cám ơn em :)
@mewacoustic4688Ай бұрын
Chị ơi c có thể chia sẻ thêm về datafu spark ko ạ, chị có tài liệu về nó ko ạ
@MaiDE-uq7wsАй бұрын
chị note yêu cầu và sẽ cân nhắc nhé, vì thực sự datafu spark này nó không DE lắm, nó nghiêng nhiều về phân tích dữ liệu, thống kê nhiều hơn, phù hợp hơn cho DA, để DA chỉ cần dùng mà không cần viết lại logic từ đầu.
@vinhphuctruong716529 күн бұрын
Dạ vậy so với Application Master của Hadoop thì Application Master của Spark làm ít việc hơn đúng không ạ. Do AM của Hadoop phải giao tiếp với NameNode thông qua HDFS API để tính toán, còn bên Spark thì AM chỉ việc kết hợp với Driver Node thôi ạ
@MaiDE-uq7ws29 күн бұрын
Đúng rồi em :) Trong Spark, phần lớn logic xử lý và điều phối công việc được chuyển vào Driver vậy nên giúp giảm tải công việc của AM. Application Master chỉ cần đảm bảo các tài nguyên cần thiết được cấp phát và môi trường thực thi được thiết lập là ok
@vinhphuctruong716529 күн бұрын
Dạ em cảm ơn chị ạ. Về cơ bản thì các loại Resource Management khác tương tác với Spark cũng có cơ chế hoạt động giống như YARN phải không ạ
@MaiDE-uq7ws28 күн бұрын
@@vinhphuctruong7165 Đúng vậy, các loại Resource Management khác (như Kubernetes, Mesos, hay Standalone Mode của Spark) khi tương tác với Apache Spark cũng có cơ chế hoạt động tương tự như YARN về mặt quản lý tài nguyên và phân phối công việc. Tuy nhiên, mỗi hệ thống có những đặc điểm riêng, cách tổ chức và triển khai cụ thể khác nhau, cái này em tự tìm hiểu thêm nhé ;)
@vinhphuctruong716528 күн бұрын
@MaiDE-uq7ws Dạ vâng em cảm ơn chị ạ, chị có thể check mail cho em xin bộ dataset thực hành được không ạ.
@MaiDE-uq7ws27 күн бұрын
@@vinhphuctruong7165 ok, để chị check mail nhé
@sonlh816 ай бұрын
Cho mình hỏi có thể đánh index trong spark ko, mình tìm hiểu qua thì nó nói là có nhưng có vẻ chưa rõ ràng lắm
@MaiDE-uq7ws6 ай бұрын
Thực ra nếu là đánh index như cách truyền thống của sql thì không, nhưng spark có hai cách khác đó là Bucketing và Z-Order cũng giúp cải thiện hiệu suất và ý tưởng cũng tương đương như việc dánh index, bạn tham khảo thêm nhé
@sonlh816 ай бұрын
@@MaiDE-uq7ws Mình đã hiểu Bucketing rồi, cám ơn bạn, Z-Order chắc tìm hiểu sau vậy. Thằng spark này có cái nào để Schedule các job cần thực hiện giống như Cron job trên hangFire ko, hay phải dùng Air Flow hả bạn
@thangnguyen37864 ай бұрын
Em coi đi coi lại vài lần rồi. Hay và dễ hiểu quá chị
@MaiDE-uq7ws4 ай бұрын
cám ơn em 🥰
@ducanh_ng83576 ай бұрын
Chị ơi cho em hỏi khi mình dùng pyspark trên laptop cá nhân thì mình không cần quan tâm đến việc cấu hình các worker node mà chỉ cần quan tâm đến việc cấu hình sparksession để dùng các tài nguyên trong máy đúng không ạ?
@MaiDE-uq7ws6 ай бұрын
đúng rồi em, khi dùng ở máy cá nhân thì chúng ta chỉ có duy nhất 1 node vừa làm driver vừa làm worker luôn, vậy nên việc tính toán song song là dựa duy nhất vào số lượng core của máy.
@datahype92514 ай бұрын
Cám ơn vid hữu ích của chị, hi vọng chị mở thêm khóa học về DE, để dạy sâu hơn về Spark và DataBrick
@MaiDE-uq7ws4 ай бұрын
Cám ơn bạn, mong muốn này của bạn cũng là mong muốn của rất nhiều bạn, mình sẽ suy nghĩ và nếu sắp xếp được thời gian, mình sẽ thử xem có thật sự giúp được các bạn hơn không ?
@tranthang21046 ай бұрын
Chị ơi, chị có thể ra video cách setup cụm spark trên nhiều node (tối thiểu 2-3 node) được không ạ ?
@MaiDE-uq7ws6 ай бұрын
chị note yêu cầu nhé, một thời điểm thích hợp chị sẽ ra video về chủ đề này :)
@nhattuyen11236 ай бұрын
Chị cho e hỏi, e thấy trong requirement (các job DE), còn có yc về AWS (S3, Redshift...), vậy một DE cần biết những thứ đó ở mức nào, hay chỉ cần biết load và lưu data trên đấy thôi vậy chị
@MaiDE-uq7ws6 ай бұрын
Cái này tùy level em, nếu chỉ là intern hay fresher thôi thì cũng chưa cần lắm đâu, chỉ cần biết khái niệm cơ bản là được. Còn những vị trí bắt đầu từ junior trở lên thì cũng cần biết dùng một chút, kiểu như em nói là load và lưu data, sau đó khi lên senior thì cần biết sâu hơn, không chỉ S3 Redshift mà còn cần biết cả glue, EMR, EC2, Lambda...
@nhattuyen11236 ай бұрын
@@MaiDE-uq7ws e cảm ơn ạ
@giabinhhoang23515 ай бұрын
hay quá chị ơi. Trước h toàn xem của mấy ô ấn không hiểu nói j luôn. ước có kênh youtube dạy bằng tiếng mẹ đẻ
@MaiDE-uq7ws5 ай бұрын
cám ơn em đã thích, mong sẽ nhận được sự ủng hộ dài dài từ em nhé ;)
@thanhhocdata6 ай бұрын
Mong chị làm video về triển khai các công nghệ như spark hadooo bằng docker và cách config ạ.
@MaiDE-uq7ws6 ай бұрын
Mình note yêu cầu của bạn rồi nhé, có thời gian thích hợp mình sẽ ra video về chủ đề này
@QuangTran-yx7tg6 ай бұрын
Chị nghĩ sao về Trino. Công ty e đang nghiên cứu triển khai Trino thay cho Spark . Trino bọn e test hiệu năng thấy nó thực sự vượt trội hơn spark
@duongtruong56916 ай бұрын
Trino là MPP, nó cần resource để duy trì chứ không như spark khi nào cần thì mới bắt đầu khởi tạo executor. Trino chỉ phù hợp cho query việc truy vấn, còn việc cần transform data phức tạp cũng như chịu lỗi tốt thì Spark ăn đứt
@MaiDE-uq7ws6 ай бұрын
Cái này tùy vào từng project cụ thể và nhu cầu của từng doanh nghiệp. Trino thì hiệu suất cao do các worker nodes luôn sẵn sàng, nhưng vì để các worker nodes luôn sẵn sàng thì tài nguyên phải được duy trì liên tục (ngay khi không có truy vấn). Spark thì linh hoạt hơn, khi nào cần thì mới khởi tạo tài nguyên cho các job, nhưng cũng chính vì vậy nên có độ trễ của việc khởi tạo tài nguyên, dẫn đến hiệu suất so với Trino có thấp hơn một chút. Đổi lại thì Spark lại giúp giảm chi phí vì không cần duy trì tài nguyên liên tục. Ngoài ra spark còn linh hoạt ở khả năng scale up và scale down tài nguyên, nghĩa là nếu dữ liệu mà thay đổi liên tục thì spark sẽ co giãn tốt hơn là Trino. Thêm nữa, Spark còn có nhiều thư viện phong phú tích hợp sẵn để xử lý nhiều công việc và tác phụ phức tạp khác nhau như MLib, GraphX, Streaming, Trino thì chỉ tập trung vào SQL thôi.
@khacquyinh34765 ай бұрын
Khi triển khai, để đảm bảo sự ổn định về mặt tài nguyên giữa các dịch vụ, Trino sẽ được cấp một lượng tài nguyên riêng cho nó, nên sẽ không lo lắng về vấn đề duy trì tài nguyên của Trino. Trino xử lý tốt cho bài toán, là cần một cách đơn giản và thời gian chạy query nhanh để query được nhiều loại nguồn data khác nhau như postgres, mysql, mongodb, kafka, v.v. Spark tốt cho việc ETL lượng data lớn và transform phức tạp, thời gian query sẽ chậm hơn Trino. Về khả năng chịu lỗi, Spark tốt hơn Trino.
@khacquyinh34765 ай бұрын
- Khả năng chịu lỗi và thời gian xử lý query: Spark chịu lỗi tốt hơn Trino. Trino chạy query nhanh hơn Spark. Do Trino lập lịch tối ưu cho xử lý song song theo fragment-based. Spark dựa theo stage-based, một query sẽ được tạo các stages tuần tự xử lý, một stage gồm nhiều tasks xử lý song song. Lineage trong stage-based là một cách giúp Spark chịu lỗi tốt hơn, tối ưu trong việc xử lý lỗi. - Truy vấn trên nhiều loại nguồn dữ liệu khác nhau: Là điểm mạnh có Trino. Trino hỗ trợ cài đặt và truy vấn xử lý từ nhiều nguồn đơn giản hơn Spark. - Tài nguyên: Các dịch vụ khi triển khai thực tế đều sẽ được cấp phát lượng tài nguyên nhất định riêng biệt, để đảm bảo sự ổn định của dịch vụ đó. Spark hoàn toàn hỗ trợ long-life app cho truy vấn SQL như Trino, khi đó không cần phải spark submit jobs. Trino phù hợp cho bài toán cần một cách đơn giản và query nhanh cho query trên nhiều loại sources khác nhau. Spark phù hợp cho bài toán cần xử lý biến đổi (transformation) phức tạp, tính ổn định cao, thời gian xử lý chấp nhận được, cũng hỗ trợ API đa dạng và thân thiện.
@TanLuke20036 ай бұрын
cho em hỏi Application master chỉ tạo trên duy nhất 1 Worker Node thôi hay sao a. Hay là mỗi Worker Node đều có một Application master riêng cho nó để tính toán mỗi worker node đó cần bao Ram hay Core ah
@MaiDE-uq7ws6 ай бұрын
đúng rồi, application master (AM) chỉ tạo trên duy nhất 1 worker node thôi, và nó sẽ được dùng để tính toán tài nguyên cho tất cả các worker node trong hệ thống, spark không tạo AM riêng cho mỗi worker node.
@nguyenucnam86266 ай бұрын
thumbnail cute quá chị
@MaiDE-uq7ws6 ай бұрын
ôi, lần đầu có người để ý cái thumbnail của tui. Cám ơn em nhiều, chắc em cũng cute lắm đúng không ? 🥰
@duyinh17346 ай бұрын
em dang di intern DE khong luong o mot cong ty co tieng la lua ga nan qua chi oi huhu
@MaiDE-uq7ws6 ай бұрын
Ủa, sao em biết lùa gà mà vẫn làm? Liệu có thật là lùa gà không, hay chỉ là tin đồn thôi. Nếu em thấy công ty không ok thì nên tìm chỗ khác cho đỡ mất thời gian ý
@hoannguyenvan99476 ай бұрын
Hay quá chị ơi! Mong chị làm video hướng dẫn làm project thực tế trên Databricks 😍
@MaiDE-uq7ws6 ай бұрын
nhất định sẽ có nhé, chỉ là bao lâu thôi. Nhiều chủ đề chị muốn làm quá mà không cách nào nhân đôi nhân ba bản thân lên được
@kimanhtran98295 ай бұрын
chị ơi ph học cả hadoop và spark ạ
@MaiDE-uq7ws5 ай бұрын
Không cần đâu em, học luôn spark là được em nhé, giờ các công ty xử lý bigdata dùng spark nhiều lắm rồi !
@grabtv42116 ай бұрын
Deploy on-premise spark ổn ko Mai. Có video chưa nhỉ
@sherip0086 ай бұрын
@MaiDE-uq7ws6 ай бұрын
@sonlh816 ай бұрын
Mình chuyển hướng sang làm DE, vốn là chỉ đọc thôi, nhưng sáng nay đọc bài của bạn về tài liệu DE free, tự nhiên cảm thấy hơi xáu hổ vì đúng là nợ bạn 1 comment. không nhũng bạn mà mình nợ những người có tám lòng đóng góp cho cộng đông như bạn, một lời khích lê. Dù có thể chả là gì nhưng mình vẫn comment. Và mong kiến thức của bạn sẽ được mọi người chia sẻ và giúp đỡ được nhiều người hơn nữa
@MaiDE-uq7ws6 ай бұрын
Cám ơn cmt của bạn. Chia sẻ thật là để làm ra 1 video techniqe tốn rất nhiều thời gian và công sức, dù biết trước khi làm là sẽ không có nhiều người xem như là những video về giải trí hay những chủ đề non-tech, nhưng mình vẫn làm vì mình tin là ai thật sự cần thì sẽ thấy video của mình hay và hữu ích, còn những ai không cần thì không phải là đối tượng mình hướng đến. Vậy nên những cmt, like của mọi người khi xem video sẽ truyền động lực rất nhiều cho mình. Và thật sự, khi làm video, mình cũng chỉ mong được nhìn thấy những tương tác thật từ người xem để có thể chia sẻ nhiều kiến thức hơn. Một lần nữa, cám ơn bạn rất nhiều vì đã bỏ thời gian ra để cmt, nó rất ý nghĩa với mình.
@tienta44245 ай бұрын
Bạn cho mình link hay tài liệu bạn đề cập đươc không ạ?