[問題] 大量爬蟲的問題

看板Python作者 (拉拉)時間4年前 (2021/05/21 05:41), 編輯推噓1(102)
留言3則, 2人參與, 4年前最新討論串1/1
有一個需要大量爬蟲的project 目標是一個新聞網的所有新聞 假設主網址是https://abc.com 我要爬的是https://abc.com/articles/202105200001.html 時間從2000年到今年 每一天都會有編號1到9999 但實際上可能只有一千篇是有內容的 目前是用tor來慢慢一篇一篇爬避免被鎖 但要整個網站爬完可以要耗費非常久的時間 在尋找更快的方法的時候看到一些所謂的「扒站軟件」 似乎是可以把整個網站下載下來 不知道有沒有人用過 針對這樣的例子是可行的嗎? 還是能請問有沒有其他方法可以更快的爬蟲? (有試過multi threading,但穩定的proxies 不夠, project也不給經費買QQ) 感謝! -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 107.77.165.61 (美國) ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1621546875.A.7CB.html

05/21 10:26, 4年前 , 1F
假設像google搜尋結果有分頁...
05/21 10:26, 1F

05/21 10:27, 4年前 , 2F
把每一頁的結果裡符合的網址存起來 索引完之後再抓
05/21 10:27, 2F

05/21 20:19, 4年前 , 3F
試著把程式移植到scrapy框架上跑跑看,不清楚會回不會被鎖
05/21 20:19, 3F
文章代碼(AID): #1WfjTxVB (Python)
文章代碼(AID): #1WfjTxVB (Python)