[問題] 大量爬蟲的問題
有一個需要大量爬蟲的project
目標是一個新聞網的所有新聞
假設主網址是https://abc.com
我要爬的是https://abc.com/articles/202105200001.html
時間從2000年到今年
每一天都會有編號1到9999
但實際上可能只有一千篇是有內容的
目前是用tor來慢慢一篇一篇爬避免被鎖
但要整個網站爬完可以要耗費非常久的時間
在尋找更快的方法的時候看到一些所謂的「扒站軟件」
似乎是可以把整個網站下載下來
不知道有沒有人用過
針對這樣的例子是可行的嗎?
還是能請問有沒有其他方法可以更快的爬蟲?
(有試過multi threading,但穩定的proxies 不夠, project也不給經費買QQ)
感謝!
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 107.77.165.61 (美國)
※ 文章網址: https://www.ptt.cc/bbs/Python/M.1621546875.A.7CB.html
→
05/21 10:26,
4年前
, 1F
05/21 10:26, 1F
→
05/21 10:27,
4年前
, 2F
05/21 10:27, 2F
推
05/21 20:19,
4年前
, 3F
05/21 20:19, 3F
Python 近期熱門文章
PTT數位生活區 即時熱門文章