Python 爬蟲高級技巧:突破網路防護、模仿瀏覽器、使用 Cookie 與每日自動化排程全攻略 | 成為爬蟲王 (‧o‧) (‧o‧) (‧o‧)

  Рет қаралды 30,730

Re:code - 從零開始摳

Re:code - 從零開始摳

Күн бұрын

Пікірлер: 96
@4LMWhLphx
@4LMWhLphx 2 күн бұрын
遇到驗証碼可以攔截他的封包直接回傳?我看高手是這樣,聽說叉邊球
@HamuraSho
@HamuraSho 4 күн бұрын
怎麼不更新了QQ
@爱提问的慢半拍
@爱提问的慢半拍 Жыл бұрын
好腻害!!刚接触到爬虫的知识,就有了这个影片,你是上帝派来的救星啊
@recode-0
@recode-0 Жыл бұрын
希望有幫到你 哈哈
@jackwongbmw
@jackwongbmw 3 ай бұрын
我還在煩怎樣自動化排程, KZbin 就幫我介紹你這影片了, 太神了
@ChangYenTi
@ChangYenTi 6 ай бұрын
大師! 想請問6:53的那種一次修改多行的方法該如何使用 希望多學一點小技巧
@ntitcsie
@ntitcsie 6 ай бұрын
卡一個 我也想知道
@recode-0
@recode-0 6 ай бұрын
喔喔 這個就是vscode 的預設快捷鍵 按住Shift+alt+滑鼠點 他會一次focus 一整排
@Chang-vk4yk
@Chang-vk4yk Ай бұрын
@@recode-0 那個一次選擇所有:是怎麽做到的?
@weskersteve8887
@weskersteve8887 10 ай бұрын
第一句话很对,能看到的东西就一定能爬下来!
@yungshenchen258
@yungshenchen258 10 ай бұрын
可以補充一些連接API的教學嗎 回覆
@recode-0
@recode-0 10 ай бұрын
Hmm … 雖然每個網站都不太一樣 不過其實就是發個 Request 拿需要的資料 然後處理 json 或是 XML 之類的@@ 感覺好像還好@@ 我稍微留意一下還有什麼能講 讓我考慮一下 XDD
@akebiYY
@akebiYY 10 ай бұрын
連那些英文的頻道都沒您講的清楚~太強了,絕對支持!
@recode-0
@recode-0 10 ай бұрын
感謝支持🥹 之後忙完會再陸續更新!
@phonedr.1013
@phonedr.1013 7 ай бұрын
真的 對岸的也沒這麼清晰 這思路很鬼
@HamuraSho
@HamuraSho 3 күн бұрын
​@@recode-0許願忙完更新QQ
@Yuze408
@Yuze408 25 күн бұрын
不是啊,一年了,人不見了啦
@recode-0
@recode-0 25 күн бұрын
時間過的好快🥲
@iammatrix412
@iammatrix412 2 ай бұрын
能請您幫我寫爬蟲程式嗎
@recode-0
@recode-0 2 ай бұрын
推薦用ChatGPT ,他可以幫你😂
@李睿-r3d
@李睿-r3d 5 ай бұрын
您好,我想詢問一下,用seleium 我的Chrome會說,目前被被自動軟體控制,以至於不能登入帳好,想請問大師有甚麼解嗎
@recode-0
@recode-0 5 ай бұрын
我的話會試試看自己事先登入,然後把 cookie 拔出來交給 Selenium 連線的時候夾著,這樣應該可以略過登入步驟~?
@agonglu7138
@agonglu7138 6 ай бұрын
謝謝大大分享,學習很多,我遇到一個網站他是需要一個cookie,但是這個cookie還沒過期就會變,發現只要重整網頁十二次後cookie值就會變,像這種要如何知道他下一次的cookie值是什麼呢?
@recode-0
@recode-0 6 ай бұрын
每個網站實作方式不一樣🥲 如果沒加密的話啦,你可以去觀察他是什麼欄位 啊,有時候網站只是用很爛的 base64編碼而已,你也可以試著解開來偷看他是什麼欄位在變 如果知道規則就幫他裝好放回去,真的不行最暴力的就是每12次就重新送一次登入請求囉XD 你可以從瀏覽器把curl資料拔出來,自己發request 夾帳號密碼過去給他,他就會給你新的cookie ,你再存下來就可以繼續多用12次了~
@MarkDog0410
@MarkDog0410 Жыл бұрын
講解得有夠清楚,跪著附上我的一鍵 三連
@mcgogo1984
@mcgogo1984 Жыл бұрын
我一直想要爬財經m平方的數據。之前好不容易有別的YTR介紹,結果卻收到財經m平方的警告信,雖然沒有違法,但是他覺得和平相處還是比較好,所以他還是下架該影片。而且他的code不知道為什麼也爬不到了。不知道財經m平方又改了什麼。 另外,你的內容很有料,但是對初學者好難。希望會有更清楚的步驟版本。謝謝
@recode-0
@recode-0 Жыл бұрын
對方網站可能有小改一些id 或class 吧 畢竟他也知道對方怎麼爬的 就改掉了😅😅 看一下執行的錯誤訊息,他是什麼東西找不到把他對應回去應該就會動了! 站在工程師的立場,應該不會為了某爬蟲大改架構才是www
@justinwu6931
@justinwu6931 3 ай бұрын
請問如果對方使用 cloudflare 服務怎麼辦?
@recode-0
@recode-0 3 ай бұрын
好像有一些開源的套件可以試試看(? cloudscraper之類的,不確定有沒有,因為我也沒試過😂
@chengc8055
@chengc8055 6 ай бұрын
请问一下,图片服务器的图片怎么爬,因为有防爬,目前我只能模拟手动下载,但效率不高也不方便操作
@recode-0
@recode-0 6 ай бұрын
最簡單暴力的方式就是你怎麼看到那些圖片,你就寫程式模擬這個過程,自然也一定能看到圖片,那你就可以抓下來了 有些網站防爬蟲做的很徹底,真的就會讓爬蟲很沒效率,慢到覺得不如付費好了XDDD 如果複雜度太高我會選擇爬其他來源😂
@ayahuang8307
@ayahuang8307 11 ай бұрын
跪求示範爬FB社團😭😭😭卡這個爬蟲卡了快兩年了🥲 FB不知道用什麼巫術selenium爬抓不到貼文時間;又集Lazy Load、CSRF於一體,想用Request爬也卡到不行
@recode-0
@recode-0 11 ай бұрын
Facebook 幾乎全部CSS ID都模組化了 真的是很難爬 😂😂 這次可以爬下次可能又換了,所以我的話會建議爬他的架構,至少不會每幾次連線就換了 舉例來說,像是稍微看一下會發現,第一個有7個class 的 div 是 Title ,那有同樣class 內容或是結構差不多的人可能都是標題,裡面就會有名字和貼文時間之類的 一些建議啦~我也沒爬過,但光想想就不是很想爬他🤣
@楊冠曾
@楊冠曾 3 ай бұрын
讚,亂爬文
@郝宗昕
@郝宗昕 Жыл бұрын
超級清楚明瞭,但是我要爬的東西 都有驗證碼 而且往往進去網址都不會變動,按旁邊的選單資料都塞在一個又一個的裡面,是不是要爬裡面資料的話,用RE就有困難,只能用selenium進去 一個一個點,一個一個頁面載
@recode-0
@recode-0 Жыл бұрын
是的@@ 聽起來好慘 另一招是你可以打開網路或是原始碼看看他有沒有偷連 api ,有的話直接連過去看看、或是搜一下他的網域看能不能用別招找到你要的資料,不一定要正面爬 真的只能爬的話,針對 可以試試看 driver.switchTo().frame(id or index) 跳進去 點完之後再 driver.switchTo().defaultContent() 或是 driver.switchTo().parentFrame() 出來,好像沒有其他方法@@ 希望有幫到你~ XDDD
@ninetydirectory3798
@ninetydirectory3798 24 күн бұрын
請問會不小心爬一爬就爬去關了呢?
@recode-0
@recode-0 24 күн бұрын
會喔 會怕的話 爬之前可以問一下被爬的人XDD
@ninetydirectory3798
@ninetydirectory3798 24 күн бұрын
@@recode-0 爬爆!怕爆
@DarkPrism
@DarkPrism 3 ай бұрын
請問windows可以使用netcat 或是有其他方式可以實現確認傳了甚麼封包嗎
@recode-0
@recode-0 2 ай бұрын
如果只是想確認封包,可以考慮裝 wireshark ,他分析得很透徹 xDD 啊 Windows 可以使用 netcat 喔~ 我是安裝 nmap 之類的分析軟體,他裡面就會幫你偷偷裝好了 XD 另外 Powershell 也有內建類似的功能,像是 Invoke-WebRequest 啥的,不過要先打開一些權限和防火牆才能被對方連到,語法我覺得很難記就不常用了,不然,你也可以試試看 Powercat 應該蠻多範例的~
@Jerry-et5uh
@Jerry-et5uh 5 ай бұрын
我想问一下图片网站的url找不到怎么办
@recode-0
@recode-0 5 ай бұрын
找不到的話你的瀏覽器應該也看不到 QQ 看得到但是 URL 連過去卻沒有的話,可能是直接連線會被他擋掉,可以試試看從 selenium 拔出來
@tsait9538
@tsait9538 6 ай бұрын
請問一下,你前面有提到cookie藏在電腦裡,那讓爬蟲讀取電腦裡的檔案可行嗎?
@recode-0
@recode-0 6 ай бұрын
可 不過你要先解密才能用 另外太久沒連的網站有可能會過期喔~
@christinalai3485
@christinalai3485 Ай бұрын
非常厲害,佩服!
@acechocolate7081
@acechocolate7081 Ай бұрын
乾貨~巨乾~謝謝頻道主❤
@jerrybinGG
@jerrybinGG 9 ай бұрын
前陣子在寫爬BOOKING後台的爬蟲,結果卡在驗證步驟,而驗證步驟只接受電話驗證,哭阿~原本就是要做自動化,結果還是需要人為介入,胎死腹中,呵呵,原本還想讓電腦串接電話看看,嘗試讓電腦去接電話,但似乎需要AI、機器學習之類的東西,礙於資源不足且專業知識沒到位,好想完成它啊QQ
@recode-0
@recode-0 8 ай бұрын
簡訊認證好像有個smsForwarder 可以試試看(? iOS 我想到的是好像有個推播到Mac 的功能,不知道能不能再寫個程式監聽有人沒有推播進來 之類的XD
@Hijakiee
@Hijakiee Ай бұрын
​@@recode-0得买虚拟手机号😢
@王大為
@王大為 8 ай бұрын
這是我看過最完整的實務爬蟲教學 從伺服器request到proxy 大隊最後自動化排程應有盡有
@recode-0
@recode-0 6 ай бұрын
以前玩的心路歷程😂
@a2414205
@a2414205 6 ай бұрын
蝦皮 用request get方法 headers 全上了 還是403 有解嗎 要獲取商品資料的json
@recode-0
@recode-0 5 ай бұрын
你的瀏覽器是看得到的嗎,如果可以應該不會這樣,可能有哪個欄位漏掉或是發出去的時候又被寫掉了? 可以用 nc 聽個 port ,把 request 發給自己,檢查一下發出去的是不是對的,有沒有夾錯~?
@a2414205
@a2414205 4 ай бұрын
@@recode-0 查了 必須JS逆向 才能拿到加密數據
@phonedr.1013
@phonedr.1013 7 ай бұрын
求未來做一些前端逆向的影片,這種進階的爬蟲台灣完全沒人做,只會爬一些基礎的😂 然候想請問我想拿我自己的餅乾做永久登入 是有可能的嗎 (網站會讓你可能幾小時後自動登出) 希望能找實例示範相關知識 太愛了 已訂閱👍👍 必須一生推
@recode-0
@recode-0 6 ай бұрын
沒有辦法喔 哈哈 伺服器發給你 cookie 的時候,上面會紀錄加密的 expired time 。你給他認證的時候會檢查,如果時間過了就算失效。所以永不永久是伺服器端說的算,如果伺服器端願意給你無期限的那就可以~
@usewrond7873
@usewrond7873 4 ай бұрын
往網站漏洞方向做吧..
@recode-0
@recode-0 4 ай бұрын
好像可以 😂
@小葦-h2x
@小葦-h2x 10 ай бұрын
如果可以介紹一下使用API的方式一定很棒
@recode-0
@recode-0 10 ай бұрын
API 感覺能說的比較少QQ 因為就是發 Request 去拿需要的資料回來 XD 有看到相關的題材的話 ,我再搜集一下吧~~ 看能不能出個一部ww
@0.o593
@0.o593 10 ай бұрын
想請問遇到cloudflare 怎麼過,用selenium 或request 都會被擋
@recode-0
@recode-0 10 ай бұрын
雖然不知道你想爬什麼,不過試試看cfscrape 怎麼樣~?
@0.o593
@0.o593 10 ай бұрын
@@recode-0 感謝,我來研究看看試試
@kerhuangyu680
@kerhuangyu680 4 ай бұрын
什麼時候會有captcha解析?
@recode-0
@recode-0 4 ай бұрын
可能… 等我有會員功能(x 不想被吉🥲
@小幼的家
@小幼的家 10 ай бұрын
要怎麼用selenium套用cookie?
@recode-0
@recode-0 10 ай бұрын
Selenium 很方便,正常的點或輸入帳密送表單,他就會幫你記住 Cookie 資訊了,如果需要改的話,driver.add_cookie({"name": "key", "value": "value"}) 就能換成你要的值了
@RikkaTakanashi-w2v
@RikkaTakanashi-w2v 4 ай бұрын
佬!强!催更!
@SurfNordVPN
@SurfNordVPN 7 ай бұрын
太優質了
@allenhung4390
@allenhung4390 10 ай бұрын
感謝講解,學到很多東西
@modseven
@modseven 10 ай бұрын
感謝大大
@sakasky
@sakasky Жыл бұрын
謝謝分享,已訂閱
@oujunhao
@oujunhao 9 ай бұрын
感谢讲解!学习到了很多东西!
@kerhuangyu680
@kerhuangyu680 8 ай бұрын
很久沒更新了
@recode-0
@recode-0 8 ай бұрын
確實😢
@terryterry8999
@terryterry8999 10 ай бұрын
請收下我的膝蓋
@recode-0
@recode-0 9 ай бұрын
感謝支持🥹
@星氣集
@星氣集 9 ай бұрын
佬 你太厲害了
@recode-0
@recode-0 9 ай бұрын
謝謝🥹
@AlanYU-d6z
@AlanYU-d6z Жыл бұрын
感謝!講解的簡單明了,希望有機會可以用一個實際爬蟲案例介紹
@recode-0
@recode-0 Жыл бұрын
好哇~ 改天來爬個不會被吉的東西試試吧~ 會被吉的可能要等我可以開通會員頻道再放🙃
@evangeline3485id
@evangeline3485id Жыл бұрын
@@recode-0加油加油,是不是快要可以開放超級感謝了😂
@recode-0
@recode-0 Жыл бұрын
沒 還有好長一段路要走😉 YT 好嚴格🥲🥲
@香蕉船-f8k
@香蕉船-f8k 4 ай бұрын
@@recode-0 請問可以爬爬看pinterest嗎,我爬上面的圖都失敗QQ,不知道公開爬會不會被吉
@NoelChang-ex4ng
@NoelChang-ex4ng Жыл бұрын
謝謝!若有講得更細的要開放會員制定我也想訂閱 🥹🥹大神!學到好多,收下我的膝蓋 😎
@recode-0
@recode-0 Жыл бұрын
噢噢噢 謝謝支持🥺
@韩晓熙-w8i
@韩晓熙-w8i 9 ай бұрын
那些赌博网站能弄吗
@recode-0
@recode-0 9 ай бұрын
你能連到的話 一定行(O
@htchd0211
@htchd0211 7 ай бұрын
👍
【硬核科普】从零开始认识显卡
15:20
硬件茶谈
Рет қаралды 390 М.
Man Mocks Wife's Exercise Routine, Faces Embarrassment at Work #shorts
00:32
Fabiosa Best Lifehacks
Рет қаралды 6 МЛН
草台班子是如何运行的?
14:38
陈一枝
Рет қаралды 372 М.
Harder Drive: Hard drives we didn't want or need
36:47
suckerpinch
Рет қаралды 1,7 МЛН
文組也看得懂的 - 網路爬蟲
4:25
學仁大大
Рет қаралды 143 М.