Trích xuất dữ liệu từ bất kỳ trang Web nào sử dụng Selenium trong Python | Crawl Data Using Selenium

  Рет қаралды 39,701

Rinez

Rinez

Күн бұрын

Пікірлер: 59
@KimQuynh-sd6wb
@KimQuynh-sd6wb 4 ай бұрын
Anh crawl data của điện máy xanh đi ạ
@tientrantrung1902
@tientrantrung1902 Жыл бұрын
Hướng dẫn luôn shopee đi a ơi. Mặc dù newbie xem hông hiểu nhưng rất hữu ích. Anh có khoá học cho newbie về python mảng lazada hông a
@rinpython
@rinpython Жыл бұрын
Yup. Có cào Shopee rùi mà chưa làm video nha
@keep5252
@keep5252 Жыл бұрын
@@rinpython mong bạn hướng dẫn xây dựng luôn cái pipeline để lấy dữ liệu luôn ạ
@thanhotrung9103
@thanhotrung9103 Жыл бұрын
@@rinpython anh ui úp sọp pee cho em học với anh ui
@john-s5099
@john-s5099 4 ай бұрын
Dạ cho em hỏi với ạ: Em chạy mà file chromedriver.exe nó bị lỗi là sao ạ.
@n.k.duy02
@n.k.duy02 Жыл бұрын
dạ a cho em hỏi: Em crawl data và chuyển nó thành dataframe từ một trang web. đôi khi một vài sản phẩm thiếu một số thông tin, thì làm sao để có thể tự gán giá trị nan cho biến đó ạ. Em cảm ơn
@dbzthanh949
@dbzthanh949 2 жыл бұрын
41:44 cho e hỏi nếu khi trỏ chuột f12 vào mà là 1 class canvas k có id từng element để , find element thì mình làm sao click dc a hay mình xử lý ntn a
@rinpython
@rinpython 2 жыл бұрын
Tạo meeting để anh hướng dẫn cụ thể ha
@moiragaes5554
@moiragaes5554 2 жыл бұрын
i.imgur.com/dWioSUb.png , e cũng bị ntn này a , a có fb k a e mới tới thế giới lập trình tính làm cái pm click sơ sơ mà gặp tới đây hẹo lun
@tranchibao5886
@tranchibao5886 4 ай бұрын
Cho em hỏi em làm giống như anh vậy nhưng trên colab thì nó báo lỗi liên tục ạ. Nhìu khi tạo 1 list để quét title code lại chạy được nhưng cuối cùng cái list đó trống rỗng []
@ittroi5184
@ittroi5184 10 ай бұрын
a crawl data của rirable thử đi ạ
@chiennguyennhu8153
@chiennguyennhu8153 Жыл бұрын
anh ơi, anh cho em hỏi là giữa selenium và scrapy thì nên chọn học thư viện nào để crawl data tốt hơn và tối ưu hơn thế ạ, em mới học đc những thư viện qtrong của python thôi anh
@rinpython
@rinpython Жыл бұрын
Hi em, anh có nhờ Google Bard trả lời cho em nà. Hy vọng có ích cho em: " Hi Bard, Bard cho em hỏi là giữa thư viện selenium và thư viện scrapy thì nên chọn học thư viện nào để crawl data tốt hơn và tối ưu hơn thế ạ? Thưa bạn, để trả lời câu hỏi này, trước tiên ta cần hiểu rõ về hai thư viện này. Selenium là một framework tự động hóa trình duyệt, có thể được sử dụng để crawl dữ liệu từ các trang web. Selenium hoạt động bằng cách khởi chạy một trình duyệt web thực tế và tương tác với nó giống như một người dùng. Điều này có nghĩa là Selenium có thể được sử dụng để xử lý các trang web dựa trên JavaScript, điều mà các thư viện web scraping khác có thể gặp khó khăn. Scrapy là một framework web scraping chuyên dụng, được thiết kế để xử lý lượng lớn dữ liệu. Scrapy sử dụng các phương pháp như crawling và parsing để thu thập dữ liệu từ các trang web. Scrapy cũng có thể được sử dụng để xử lý các trang web dựa trên JavaScript. Dựa trên những điểm khác biệt này, ta có thể thấy rằng Selenium là một lựa chọn tốt hơn nếu bạn cần crawl dữ liệu từ các trang web dựa trên JavaScript hoặc các trang web có yêu cầu tương tác của người dùng. Scrapy là một lựa chọn tốt hơn nếu bạn cần crawl lượng lớn dữ liệu hoặc cần một framework web scraping chuyên dụng. Dưới đây là một số lưu ý để giúp bạn chọn thư viện phù hợp: Loại dữ liệu bạn cần crawl: Nếu bạn cần crawl dữ liệu từ các trang web dựa trên JavaScript hoặc các trang web có yêu cầu tương tác của người dùng, thì Selenium là lựa chọn tốt hơn. Khối lượng dữ liệu bạn cần crawl: Nếu bạn cần crawl lượng lớn dữ liệu, thì Scrapy là lựa chọn tốt hơn. Khả năng lập trình của bạn: Selenium có thể phức tạp hơn Scrapy để học và sử dụng. Nếu bạn mới bắt đầu với web scraping, thì Scrapy có thể là một lựa chọn tốt hơn. Nhìn chung, Selenium và Scrapy đều là những thư viện web scraping mạnh mẽ. Thư viện phù hợp nhất cho bạn sẽ phụ thuộc vào nhu cầu cụ thể của bạn. Dưới đây là một số ví dụ về trường hợp sử dụng phù hợp cho từng thư viện: Sử dụng Selenium: Crawl dữ liệu từ các trang web dựa trên JavaScript Crawl dữ liệu từ các trang web có yêu cầu tương tác của người dùng Crawl dữ liệu từ các trang web có nội dung động Crawl dữ liệu từ các trang web bị chặn Sử dụng Scrapy: Crawl lượng lớn dữ liệu Crawl dữ liệu từ nhiều trang web Crawl dữ liệu từ các trang web có cấu trúc phức tạp Crawl dữ liệu từ các trang web được bảo vệ Hy vọng những thông tin trên sẽ giúp bạn chọn được thư viện phù hợp để crawl dữ liệu tốt hơn và tối ưu hơn. "
@anhkhoa9994
@anhkhoa9994 Ай бұрын
sao e chẳng lấy được cmt :(( nó trả về list rỗng. phần lấy link page với sản phẩm làm được :(( ai có cách nào không
@Mr_TCHQ
@Mr_TCHQ Жыл бұрын
Cho mình hỏi mình dùng selenium để download 1 file trên web xuống, có cách nào để mình lấy được đường link file vừa download xuống không bạn?
@phanhoang1
@phanhoang1 11 ай бұрын
bạn đang sử dụng phần mềm code gì thế. mình dùng pycharm nhưng k có chạy lệnh từng dòng thế
@rinpython
@rinpython 11 ай бұрын
Mình sử dụng Spyder nha bạn ơi
@ngocxuan7422
@ngocxuan7422 9 ай бұрын
Cho em hỏi phương pháp nào crawl được shopee k ạ?.
@TuNguyen-te9if
@TuNguyen-te9if 8 ай бұрын
Tự làm đi em
@ngocxuan7422
@ngocxuan7422 7 ай бұрын
:v 🙃
@huyphamdev
@huyphamdev 6 ай бұрын
selenium thì mình không rành nhưng với playwright thì nó lại đơn giản lắm, còn không cần cả việt check element class để lấy dữ liệu đấy bạn.
@NCT3201
@NCT3201 9 ай бұрын
bạn ơi, mình muốn crawl dữ liệu ở các trang tiếp theo (bóc tách dữ liệu có phân trang) thì cần phải làm j bạn nhỉ
@companythanhphat
@companythanhphat 9 ай бұрын
điều khiển nút phân trang là được nhé
@hanvannoli4133
@hanvannoli4133 Жыл бұрын
e muốn craw giá, ảnh, tiêu đề sản phẩm từ amazon về googlesheet và nó tự câp nhật giá hàng ngày. có làm được k a nhỉ
@rinpython
@rinpython Жыл бұрын
Được nha em ơi. Contact Zalo để mình trao đổi cụ thể hơn nha
@HoangPham-pm3hn
@HoangPham-pm3hn Жыл бұрын
anh ơi ví dụ em muôn lấy ra cái lazMall thì làm thế nào vậy ạ
@rinpython
@rinpython 2 жыл бұрын
Code: drive.google.com/drive/folders/1jgAvTDUQcRZJ65hF0vz6k9XWZSlIZSBj?usp=sharing
@HuyVu-nv2ot
@HuyVu-nv2ot Жыл бұрын
em lấy về chạy mà nó báo:No Such Element Exception 1 là bị sao vậy a
@namhoang8685
@namhoang8685 2 жыл бұрын
hu hu bác cho e code bài trước e nghiên cứu với ạ, thank bác
@rinpython
@rinpython 2 жыл бұрын
Chú cứ từ từ :))))
@tranthienan3037
@tranthienan3037 6 ай бұрын
em thử bị lỗi khi trường hợp ko có review trong sản phẩm thì sao ạ?
@HattoryTran
@HattoryTran Жыл бұрын
Help mình điểm lấy xpath với. Case của mình như sau: khi mình copy full xpath chỗ sold thì lúc so sánh giữa 2 item thì xpath khác nhau ở đuôi nữa. Do đó, khi Run thì kết quả không đúng. Điểm này solve sao vậy Rin? (tương tự với rating cũng vậy và mình thấy 40 items có những items ko có rating nên ko có chung xpath)
@rinpython
@rinpython Жыл бұрын
à mà bạn biết dùng try except để bắt lỗi chưa í?
@HattoryTran
@HattoryTran Жыл бұрын
@@rinpython chưa Rin ơi
@thanhinhtat288
@thanhinhtat288 Жыл бұрын
đối với những trang web phải bật VPN lên mới access được thì có dùng được selenium không ạ?
@rinpython
@rinpython Жыл бұрын
Đc nha bạn
@nguyenthinh3789
@nguyenthinh3789 Жыл бұрын
thanks
@RoseDuong-t9k
@RoseDuong-t9k Жыл бұрын
up cai thung rac do dau
@rinpython
@rinpython Жыл бұрын
Ok
@nhambui3018
@nhambui3018 Жыл бұрын
Có cách nào không cần mở trình duyệt vẫn lấy được các element trả về cho ứng dụng của mình không ah. Cho em xin key để tìm kiểm với ah.
@rinpython
@rinpython Жыл бұрын
Có nha. Sử dụng argument "headless" Gg search: selenium testing without browser
Жыл бұрын
get api thử nha
@DatNguyen-sc6ie
@DatNguyen-sc6ie Жыл бұрын
có cách nào chặn cloudflare không ạ
@tuanquang2173
@tuanquang2173 2 жыл бұрын
Bác có làm Shopee luôn được ko ạ 😁😁
@rinpython
@rinpython 2 жыл бұрын
Được chứ chú
@tuantranvan8807
@tuantranvan8807 Жыл бұрын
shopee nó thây đổi cả name class css hay dispath mỗi lần requests lại link thì ko biết ad xử lý crawl ntn ạ ?
@hoangnhatquang4743
@hoangnhatquang4743 Жыл бұрын
Bạn có thể giải bằng đa luồng được không
@nguyenquochuy7153
@nguyenquochuy7153 Жыл бұрын
Ok, mình sắp ra video đa luồng crawl nhiều browsers cùng lúc nha bạn ơi
@rinpython
@rinpython Жыл бұрын
có video đa luồng rồi nha bạn ơi... kzbin.info/www/bejne/aWWkop2EeK51iaM
Жыл бұрын
vãi coi cả buổi thấy bạn crawl dc có 40 sản phẩm, có cách nào crawl nhiều ko nhỉ, nó còn nhiều page mà nhỉ
@rinpython
@rinpython Жыл бұрын
Hic. Đó là mình crawl 1 page. Bạn muốn crawl mình page thì cho nó vào for/while loop hoặc run parallel nha
Жыл бұрын
@@rinpython bạn có code để chạy nhiều page ko chứ 1 page mình làm cũng dc
@rinpython
@rinpython Жыл бұрын
@ làm đc 1 page thì chắn chắn làm đc nhiều page
Жыл бұрын
@@rinpython để mình ngâm cứu chứ trc dùng api
@minhtrivo9975
@minhtrivo9975 2 жыл бұрын
Đối với web kéo xuống mới hiện thêm item thì sao anh
@rinpython
@rinpython 2 жыл бұрын
đối với Scroll Loading Pages thì mình dùng driver.execute_script("window.scrollTo(0, document.body.scrollHeight-1000);") nha
@rinpython
@rinpython 2 жыл бұрын
Có thể search google "Scroll Loading Pages In Selenium Python stackoverflow" để tìm hiểu thêm nà
Cool Parenting Gadget Against Mosquitos! 🦟👶 #gen
00:21
TheSoul Music Family
Рет қаралды 33 МЛН
didn't manage to catch the ball #tiktok
00:19
Анастасия Тарасова
Рет қаралды 35 МЛН
Wait for the last one 🤣🤣 #shorts #minecraft
00:28
Cosmo Guy
Рет қаралды 14 МЛН
ES6
50:07
Le Hoang
Рет қаралды 37
#7 - Jmeter - Hướng dẫn Jmeter HTTP request - GraphQL API
17:09
coroutine
3:05:42
Tiến Bùi Văn
Рет қаралды 2
Cách tải dữ liệu từ Web sử dụng Power Query
21:11
ĐT Nguyễn [Học Excel Online]
Рет қаралды 13 М.
Winning Facebook (Meta) Hacker Cup Qual Round 2022?
53:55
Neal Wu
Рет қаралды 2,5 МЛН