Gửi mọi người Group Telegream Wecommit Public Community : www.wecommit.com.vn/wecommitcommunity ,anh em có thể trao đổi những câu hỏi , vấn đề khi xem Video và kết nối với tôi trong Group nhé (trường hợp click trực tiếp bị lỗi thì ae copy link ra browser nhé)
@tringuyencaothien241210 ай бұрын
khúc inverted index thì content có bao nhiêu từ thì sẽ có bấy nhiêu cái index sẽ tạo ra một bộ index rất khổng lồ đó là hạn chế khi sài giải thuật này và khi dữ liệu cực lớn thì index cũng sẽ cũng sẽ bị trùng rất nhiều khi bạn nhập càng nhiều từ dẫn tới thời gian chạy vẫn sẽ lâu hơn 1 2 second khúc hash nội dung thì có thể bị sai nếu lưu nội dung dưới dạng html hoặc các trang tin tức clone tin của nhau nhưng khác timestamp -> vẫn sẽ bị duplicate khúc queue thì người dùng sẽ phải trả tiền rất nhiều vì 1 trang web sẽ đại diện cho 1 queue và 1 tỉ trang web sẽ là 1 tỉ queue một vấn đề nữa để kiểm tra dữ liệu có trong queue hay không thì phải pop từng phần tử trong queue ra để kiểm tra rồi nhét lại queue chứ nó ko dễ như cấu trúc dữ liêu hash table nói chung các bạn mới bắt đầu có thể xem để hình dung những thứ cơ bản dễ tiếp cận còn triển khai thực tế thì người ta sẽ ko triển khai theo hướng này đặc biệt là những start up.
@jackiedo737010 ай бұрын
Ông này nói mấy cho ng ko biết thôi. Chứ kiến thức chuyên sâu ông này nói ko tin đc
@tringuyencaothien241210 ай бұрын
@@jackiedo7370 bởi vậy System Design đâu có đơn giản đâu ngay ở mức cơ bản nhất nó cũng đã rất phức tạp rồi lý thuyết thì nói dễ chứ lúc đụng vô là sấp mặt từ A tới Z
@MrLoyalNguyen10 ай бұрын
Không thấy nhân thử 100 tỷ pages ra xem cần bao nhiêu ổ đĩa nhỉ. Nghĩ đến thôi đã thấy mệt rồi.
@devkhoa9 ай бұрын
Mình cũng đồng ý với bạn về 2 ý đầu. Nhưng mà ý thứ 3 không nhất thiết 1 queue chỉ có 1 website, bạn có thể bỏ 1000 site vào 1 queue cũng vẫn ok, performance chắc chắn bị giảm bù lại cost cũng giảm. Nhưng mình ko nghĩ đơn giản như v
@tringuyencaothien24129 ай бұрын
@@devkhoa đúng nhưng hiệu suất performance sẽ cực tệ bạn có thể cải thiện bằng tăng số lượng worker pick event nhưng nếu các website có cùng url nằm kề nhau trong queue thì là spam người ta rồi =)) cách đặt cùng 1 queue khá là không hợp lý
@tranquochuywecommit10 ай бұрын
Nếu anh em muốn đào sâu hơn nữa về hệ thống Search Engine, anh em có thể xem thêm 02 câu hỏi ở cuối video này và cùng nhau thảo luận tại phần bình luận này nhé. Cảm ơn các anh em đã quan tâm và ủng hộ.
@baodanhseo9 ай бұрын
Dạ anh Huy, em có thể xin được học các kiến thức về Search Engines (học sâu về cách thức hoạt động - thuật toán), thì em nên bắt đầu & lộ trình học - nguồn học nên tìm từ đâu uy tín ạ. Em cảm ơn anh
@truongtuan21989 ай бұрын
Em cảm ơn anh. Rất vui vì thế hệ tụi em và sau này có anh. Quá tuyệt vời ạ
@tranquochuywecommit9 ай бұрын
một bình luận chứa rất nhiều năng lượng tích cực. Cảm ơn anh em nhé
@PhamAnhHao-zw4ff10 ай бұрын
Video hay quá ạ. Từ cách a vẽ minh họa các luồng cho đến giải thích cách thức hoạt động của hệ thống mọi thứ đều rất trực quan và dễ hiểu. Mong anh sẽ ra thêm nhiều video về chủ đề System Design như này. Em cảm ơn ạ!!!!
@tranquochuywecommit10 ай бұрын
cảm ơn anh em. Anh em đăng ký kênh để nhận thông báo cho các video sắp tới nhé.
@_vietdava_6 ай бұрын
quá tuyệt vời luôn anh ơi, mặc dù em hiểu khoảng 50% video thôi nhưng phải nói là học hỏi được rất nhiều từ video này
@namdao-rn5ms8 ай бұрын
mặc dù ko làm về DB nhưng vẫn thích xem video anh làm ạ
@phamngoclinh11098810 ай бұрын
Mình không phải dân cntt cũng không biết gì về môn này nhưng lại rất thích xem video như này cảm ơn ad rất nhiều
@tranquochuywecommit10 ай бұрын
oh, thật tuyệt vời, cảm ơn anh em nhé
@tmermfos946510 ай бұрын
xem r có hiểu j k kkkk. Tôi dân IT mà xem cx k hiểu lắm cái này nâng cao vs dành cho ng đi làm lâu năm
@phamngoclinh11098810 ай бұрын
@@tmermfos9465 không hiểu nhưng vẫn thích xem 😂
@binhcoding3am1489 ай бұрын
2024 chúc anh và gia đình mạnh khỏe, tiếp tục chia sẽ nhưng video bổ ích chất lượng cho cộng đồng IT Việt Nam
@tranquochuywecommit9 ай бұрын
cảm ơn anh em. Chúc anh em một năm 2024 nhiều sức khỏe và may mắn nhé
@thatson921810 ай бұрын
Băm nội dung trang web để tránh duplicate sẽ bị sai khi nội dung trang copy nó thêm ngày tháng năm. Cách giải quyết này k triệt để. Ví dụ trang 1 có noi dung là "abc". Trang 2 là trang copy của trang 1 có noi dung như sau "hôm này là ngày 13/2/2024. abc". Cách giải quyết là compare noi dung của page 1 và page 2 giống nhau hoặc khác nhau bao nhiêu phần trăm để xem là ok thêm vào hệ thống
@tranquochuywecommit9 ай бұрын
ở cuối video mình có đề cập tới các vấn đề nghiên cứu sâu hơn đó anh em.
@ckien20079 ай бұрын
Muốn làm cái này các bạn cần nghiên cứu lĩnh vực Xử lý ngôn ngữ tự nhiên, trong đó có một số mô hình mà mấy search engines mở đang dùng, hiện tại nó còn ra thuật toán mới hơn so với thuật toán ở giáo trình cũ của Standford.
@baodanhseo9 ай бұрын
Em cảm ơn anh Huy rất nhiều, em học mảng SEO nên SE là chủ đề em rất quan tâm ạ
@thoimaidev10 ай бұрын
Hay tẹt vời anh Huy ới. Mong a ra nhiều video chia sẻ về hệ thống như thế này cho đàn em học hỏi thêm ^^
@ThunderboltPath10 ай бұрын
Video hay quá ông ơi 🎉 chủ đề hiện đại, giải thích chi tiết thiết thực. Hy vọng được xem thêm những video giải các bài toán thiết kế hệ thống như thế này 😊
@tranquochuywecommit10 ай бұрын
cảm ơn anh em đã ủng hộ. Anh em đăng ký kênh để nhận thông báo sớm nhất khi video mới ra mắt nhé.
@tmsanghoclaptrinh10 ай бұрын
Các bạn có thể sử dụng các phần mềm như Goodnotes hoặc Notability để vẽ/viết trên iPad, bấm nút quay màn hình trên iPad, rồi edit trên máy tính để gộp video quay mặt mình và video iPad lại với nhau như anh Huy nhá ✍
@diepngo147210 ай бұрын
cám ơn anh, video rất cô đọng và thực tế
@tranquochuywecommit10 ай бұрын
cảm ơn anh em đã ủng hộ kênh mình nhé.
@nhatquangcntt9 ай бұрын
Kiến thức rất hay, Minh chuyên SEO làm sao biết system google dựa vào yếu tố gì để lưu dữ liệu minh vào db và trả kết quả cao hơn đối thủ 😢. Hiện tại vd minh có url trùng từ khoá enduser tìm, nội dung mới ko trùng, trải nghiệm trang đích tốt ... bla bla ☺️ làm sao để đc lưu db và trả kết quả cao hơn khi enduser tìm
@huuhoangnguyen565110 ай бұрын
theo e biết thì hash thì người ta băm web thành mã băm 64 bit nhị phân xong tính khoảng cách hamming nếu khoảng cách hamming nhỏ hơn ngưỡng đặt ra thì 2 trang web đc coi là trùng lặp. Có hẳn 1 bài hướng dẫn các cách tăng tốc độ tính toán nếu băm theo kiểu đó đc viết bởi ông nào ý cũng đang làm việc ở google=((
@tranquochuywecommit10 ай бұрын
hay quá anh em, anh em có thể chia sẻ link giải thuật để mọi người cùng biết được không.
@nguyenhoang68819 ай бұрын
Hay bạn, mình cũng đang thắc mắc đâu thể nào 2 trang có content giống hệt nhau dc
@ckien20079 ай бұрын
Còn có nhiều dạng khoảng cách khác như khoảng cách Levenshtein, Jaccard, khoảng cách Cô-sin,... Cách cài đặt cơ bản thường là chuẩn hóa văn bản tạo bộ vector đầu ra cho văn bản rồi so sánh các bộ vector của các văn bản để tính toán mức độ tương đồng giữa vector từ khóa cần tìm với vector các văn bản. Google và Binh nó làm vậy (về lý thuyết :D )
@YCA-Education9 ай бұрын
Học cái này xong thấy SEO cũng đơn giản
@ducdatnguyen92514 ай бұрын
Cám ơn anh đã chia sẽ những kiến thức rất quý báu, a có thể cho em hỏi một câu ngô nghê là trong việc tìm kiếm dữ liệu a có đề cập đến việc sử dụng inverted index để có kết quả nhanh chóng, vậy thì việc sử dụng công nghệ elasticsearch thì có điểm gì khác biệt so với cách đánh inverted index ạ? Việc đánh index sẽ làm giảm hiệu năng khi update lại dữ liệu thì đó là điểm chung của cả 2 công nghệ phải không ạ? Do cả inverted index và elasticsearch em đều chưa có trải nghiệm nên nếu hỏi không đúng a thông cảm nhé. Cám ơn a!
@thuanboss5239 ай бұрын
Trông có vẻ cũng ko phức tạp lắm, cám ơn anh đã chia sẻ
@tranquochuywecommit9 ай бұрын
khi đi vào triển khai chi tiết sẽ còn nhiều thứ nữa, nhưng ở mức tổng quan thì thế này là được anh em ah
@nhungnguyen-mv1rl5 ай бұрын
Em cảm ơn anh, bài giảng đỉnh quá
@nampham785010 ай бұрын
chi tiết và dễ hiểu vs cả người mới như em ạ
@tranquochuywecommit10 ай бұрын
anh em đăng ký kênh để sớm nhận thông báo các video tiếp theo nhé. Cảm ơn anh em
@jackiedo737010 ай бұрын
Đây ko phải kiến trúc google đang áp dụng 😂 nếu làm cách này thì cuộc đời lại đơn giản quá cơ
@tranquochuywecommit9 ай бұрын
tư tưởng áo dụng thôi anh em ah.
@quantien19798 ай бұрын
chưa hiểu lắm về cân bằng tải, nhờ hổ trợ thêm
@milliebrown233210 ай бұрын
Đúng cái đang cần mấy cái tri thức sâu này giờ ít kênh làm vl
@tranquochuywecommit10 ай бұрын
cảm ơn anh em. Anh em đăng ký kênh để cùng thảo luận với mình ở các nội dung chuyên sau sắp ra tiếp theo nhé.
@HuyNguyen-zp8ju9 ай бұрын
Đang học năm 3 năm 4 khuyên k nên xem dễ bị hiểu sai lệch khái niệm lắm😅
@hongnongthanh54899 ай бұрын
hay ạ, thanks anh đã chia sẻ
@nhavan143210 ай бұрын
đỉnh đỉnh anh ơiiii
@TheRemjx0110 ай бұрын
Video rất hay và dễ hiểu. Thầy cho em hỏi thầy dùng tool gì để vẽ handwriting style + note vậy ạ?
@tranquochuywecommit10 ай бұрын
mình dùng goodnotes anh em ạ.
@accminecraftnet555110 ай бұрын
Hay dễ hiểu
@quyenhoang569510 ай бұрын
Với thiết kế như này mà đã đc 100 tỉ thì game lại dễ quá
@tranquochuywecommit10 ай бұрын
có khung thiết kế rồi, phần scale cứ theo thế này là được anh em ah
@nguyenhanam11089 ай бұрын
hay quá ạ
@BubVN9 ай бұрын
phần index hay quá a
@tranquochuywecommit9 ай бұрын
cảm ơn anh em.
@XeomShipperMuaHangXeShipMua10 ай бұрын
Xem ko hiểu gì nhưng chúc bạn ăn tết vui vẻ 🎉
@tranquochuywecommit10 ай бұрын
Cảm ơn người anh em. Chúc anh em đón Tết vui nhé
@TP-kj2sm10 ай бұрын
16:05 nếu chỉ quét 1 lần thì khi nội dung web được cập nhật, content db của chúng ta sẽ bị outdated. Ví dụ các bài báo tường thuật trực tiếp sự kiện, Google search vẫn phải đảm bảo tìm kiếm được nội dung mới nhất mà không spam web của người ta liên tục (tốn tài nguyên của mình nữa). Mong anh nêu giải pháp cho vấn đề này ạ.
@tranquochuywecommit10 ай бұрын
Quét nhiều lần định kỳ anh em nhé, các hệ thống hiện tại đều thế cả
@mypet249 ай бұрын
Cảm ơn video của bạn, tuy nhiên tôi muốn hỏi thêm chút là khi xây dựng db thì nguồn url bạn lấy ở đâu để lọc các title, content, ... để add vào db. Vì db sẽ phải quét định kỳ để hoàn thiện data cũng như tăng tốc tìm kiếm, chứ không phải khi nào có user nào đó tìm kiếm rồi mới tiến hành tìm và xử lý thông tin và trả lại cho user ngay lúc đó.
@mypet249 ай бұрын
Mọi người có ai biết nơi nào lưu trữ toàn bộ các url của tất cả các website đang hoạt động trên internet không ạ..?
@tuannguyenvanquoc267010 ай бұрын
Hay quá, em cảm ơn anh ạ
@tranquochuywecommit10 ай бұрын
Cảm ơn em. Em đăng ký kênh để cùng thảo luận với anh các video sắp tới nhé.
@thichmautim10 ай бұрын
Góp ý phần dùng hash để chống trùng thì hơi dở nhé. Vì ví dụ là web thì khi clone sẽ có khác 1 tí tẹo vậy là ra 2 trang khác nhau nếu tính theo hash.
@tranquochuywecommit10 ай бұрын
cái này mình có nêu ở cuối video đó anh em. Với 2 vấn đề ở cuối video (trong đó có phần anh em nói), anh em thử xem có phương án gì ở đây không?
@truongchidien381010 ай бұрын
Theo em nghĩ thì mình có thể dùng ML để encode nội dung trang web thành 1 vector sau đó có thể thực hiện so sánh thì sẽ cho kết quả tốt hơn hash nhưng hiệu suất có thể sẽ chậm hơn và tốn thêm công sức để phát triển mô hình ML có độ chính xác cao
@tranquochuywecommit10 ай бұрын
@truongchidien3810 thực ra hash cũng có nhiều cách, tại bài bên trên mình đưa ra một cách kinh điển và gợi mở ý tưởng để các anh em cùng nhau thảo luận. Ý tưởng chuyển thành vector cũng hay đấy anh em
@KaKaOfficial210 ай бұрын
Video tuyệt vời ạ
@tranquochuywecommit10 ай бұрын
cảm ơn anh em. Anh em đăng ký kênh nhé, video mới sắp ra mắt đấy
@kemmuadong10 ай бұрын
Hữu ích anh ạ
@tranquochuywecommit10 ай бұрын
cảm ơn anh em nhé
@DekaTruong8 ай бұрын
Mình nghĩ đoạn Database có Inverted Index trên 100 tỷ records vẫn còn nhiều bottleneck phải giải quyết nữa chứ không đơn giản như vậy (có thể Partitioning hay Sharding các kiểu, vấn đề network nữa, chưa kể giới hạn phần cứng cần distributed processing chứ 1 database instance ngốn quá nhiều storage như vậy là bất khả thi,...).....Nếu được thì bạn làm thêm 1 Video chuyên sâu về vấn đề này để ae làm Architecture giao lưu học hỏi với!!! Chỗ đó nếu dùng ElasticSearch thì có thể có những tối ưu gì khác?!
@quack-dev5 ай бұрын
Tác giả đang vẽ ra một câu chuyện có thật nhưng trong tưởng tưởng. :)) mặc dù xem video có giá trị tham khảo nhưng về bản chất không thể apply trong thực tế. Điều này giống như câu chuyện học ở trường đại học mang tính hàn lâm nhưng ở môi trường doanh nghiệp thì ối dồi ôi.
@hungtlhhtb9 ай бұрын
Tuy nghe có vẻ khả thi, nhưng Google đã không làm theo cách này vì tốn quá nhiều dữ liệu và quá chậm nếu theo mô hình này. có ý tưởng hay nhưng thực tế làm như này sẽ chỉ là tốn kém và phức tạp vấn đề tìm kiếm nên. trong khi các hệ thống tìm kiếm bây giờ là 0,0000001 s cho ra kết quả. thì ~ thời gian truy cập vào API
9 ай бұрын
Hay quá a. Cách làm video này bằng phần mềm gì vậy a.
@tranquochuywecommit9 ай бұрын
goodnotes anh em nhé
@PhamThan07109 ай бұрын
voice trầm của bác hay mà sao tới âm sắc nó lên tông cao thế
@tranquochuywecommit9 ай бұрын
cảm ơn góp ý của anh em nhé.
@phungquocdan189510 ай бұрын
hay đấy
@tranquochuywecommit10 ай бұрын
cảm ơn anh em
@issacnewton-b6k10 ай бұрын
Thầy cho hỏi, cái list URL để xây dựng content DB thì lấy ở đâu? Thanks
@guitar300k10 ай бұрын
chỗ nào có link thì lưu lại chứ sao
@mypet249 ай бұрын
@@guitar300k ý là nguồn url ở đâu để lọc thông tin lưu vào db, sau đó người dùng tìm kiếm thì mới vào db để tìm thông tin. ví dụ với từ khóa "winter" ở video thì ban đầu làm sao để có được danh sách các url mà nội dung có chứa từ khóa "winter". Đó là mấu chốt. Nếu db được quét định kỳ thì cũng phải có một nơi nào đó để lấy toàn bộ url trên nền tảng web, sau đó quét lấy title, content, hash code rồi lưu vào db.
@1337Rinz10 ай бұрын
hay quá thầy. ủng hộ 1 subscribe ^^
@tranquochuywecommit10 ай бұрын
cảm ơn anh em nhé
@NguyenNguyen-zf9zx9 ай бұрын
Không lẻ cái camera trong nhà mình có vấn đề?? Em mình gắn mà, không lẻ nó chơi mình sao??
@NguyenNguyen-zf9zx9 ай бұрын
Sau này mình mà biết cái camera trong nhà có vấn đề, thì sẽ không để yên cho cái nhà này đâu.
@spaceteam859510 ай бұрын
Anh có demo không anh nhỉ. Có dự án demo thì thực tế hơn nhiều đấy a Huy. :)
@tranquochuywecommit10 ай бұрын
những bài này mục tiêu là có chia sẻ tư duy và thiết kế tổng thể anh em ah.
@zin695510 ай бұрын
Về phần dữ liệu khi được tìm kiếm trong database phần inverted index, em thấy cách hoạt động của nó tương đồng với thằng map reduce trong hadoop. Thì không biết là có thể áp dụng để sử dụng được thằng hadoop trong trường hợp này được không ạ.
@xuanhoangbo123610 ай бұрын
map reduce trong hadoop read/write trên ổ đĩa nên tốc độ khá chậm, bạn nên chuyển qua spark hoặc elk
@maicuongquyet10 ай бұрын
Máy a dùng ghi màn hình là gì ak a...hiệu của máy viết lên màn hình ạ
@tranquochuywecommit10 ай бұрын
anh dùng ipad em ah
@anhemcoder474510 ай бұрын
Hay . Bạn có group nào để để cùng thảo luận không ?
@tranquochuywecommit10 ай бұрын
anh em có thể thảo luận trên đây cùng mình luôn nhé
@anhemcoder474510 ай бұрын
@@tranquochuywecommit Đang vào list của kênh để xem video khác 🤣🤣🤣
@nongducthientuanfplhn702410 ай бұрын
làm tiếp đi ạ
@tranquochuywecommit10 ай бұрын
Okie anh em, anh em đăng ký kênh mình nhé. Sắp tới sẽ tiếp tục có những video như thế này.
@shadyTNTA7 ай бұрын
video hay quá, cho hỏi nội dung trong này ông bạn xem ở đâu thế? tôi muốn tìm nguồn
@neymarquan295910 ай бұрын
Flow vẽ bằng gì đẹp quá a
@tranquochuywecommit10 ай бұрын
video quay dựng với goodnotes anh em ah
@vandungnguyen108710 ай бұрын
Hash để tránh trùng lặp là hash nội dung của trang web hay hash thông tin gì vậy anh?
@tranquochuywecommit10 ай бұрын
Check nội dung nên sẽ thực hiện hash nội dung anh em ah. Tuy nhiên đây là cách tiếp cận cơ bản nhất thôi, anh em có thể đào sâu hơn khi đặt thêm vấn đề: nội dung giống nhau đến 90% thôi chứ không phải toàn bộ, vậy sẽ cần cải tiến thêm nữa ở giải thuật. Ở cuối video trong phần tổng hợp ghi chú mình có nói tới đó.
@TP-kj2sm10 ай бұрын
@@tranquochuywecommit có 2 vấn đề mong anh chỉ giáo ạ: - dựa vào đâu để biết nội dung 2 trang giống nhau 80-90%? - nhiều trang chơi trò dùng font chữ lạ hoắc, không phải tiếng Việt nhưng có nét giống tiếng Việt, mắt con người vẫn đọc được tuy hơi khó thì có check được vụ trùng lặp nội dung không? (điển hình nhất là mấy trang báo lá cải)