PTT數位生活區 / Python

[問題] 大量爬蟲的問題

看板Python作者Supershero (拉拉)時間4年前 (2021/05/21 05:41)推噓1(1推 0噓 2→)

留言3則, 2人參與討論串1/1

有一個需要大量爬蟲的project 目標是一個新聞網的所有新聞假設主網址是https://abc.com 我要爬的是https://abc.com/articles/202105200001.html 時間從2000年到今年每一天都會有編號1到9999 但實際上可能只有一千篇是有內容的目前是用tor來慢慢一篇一篇爬避免被鎖但要整個網站爬完可以要耗費非常久的時間在尋找更快的方法的時候看到一些所謂的「扒站軟件」似乎是可以把整個網站下載下來不知道有沒有人用過針對這樣的例子是可行的嗎？還是能請問有沒有其他方法可以更快的爬蟲？（有試過multi threading,但穩定的proxies 不夠, project也不給經費買QQ) 感謝！ -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 107.77.165.61 (美國) ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1621546875.A.7CB.html

→

05/21 10:26, 4年前 , 1^F

05/21 10:26, 1^F

→

05/21 10:27, 4年前 , 2^F

05/21 10:27, 2^F

推

05/21 20:19, 4年前 , 3^F

05/21 20:19, 3^F

‣ 返回看板[ Python ] 程設

‣ 更多 Supershero 的文章

文章代碼(AID): #1WfjTxVB (Python)

Python 近期熱門文章

1

2

[問題] 用Whisper AI幫我下載字幕（有酬）

2月前, 04/01

1

3

[問題] selenium 有辦法做檔案上傳嗎?

4月前, 02/03

3

8

Fw: [討論] 哈囉請問有給python新手的課程嗎

5月前, 01/24

4

19

Re: [問題] @property 真正的運用是啥

5月前, 01/15

3

8

[問題] class type 跟 class object

5月前, 01/10

8

15

[閒聊] python平行處理效能是否很差?

5月前, 01/07

5

16

[問題] @property 真正的運用是啥

5月前, 01/06

3

4

[閒聊] 有人要合購股票pythony資料庫finlab嗎?

5月前, 01/03

更多近期熱門文章 >>

PTT數位生活區即時熱門文章

4

12

Re: [心得] iQOO Neo10 Pro心得

1小時前, 06/23

0

12

Re: [討論] Google Pixel手機有甚麼特別?

1小時前, 06/23

4

8

Re: [討論] Google Pixel手機有甚麼特別?

2小時前, 06/23

27

55

Re: [公告] 禁推“iRocks”全系列產品(即時更新)

[ PC_Shopping ]

2小時前, 06/23

4

16

Re: [公告] 禁推“iRocks”全系列產品(即時更新)

[ PC_Shopping ]

3小時前, 06/23

3

11

[問題] 辦門號驗雙證件過程

4小時前, 06/23

5

15

Re: [討論] Google Pixel手機有甚麼特別?

7小時前, 06/23

-30

319

Re: [公告] 禁推“iRocks”全系列產品(即時更新)

[ PC_Shopping ]

7小時前, 06/23

更多即時熱門文章 >>

‣ 返回看板[ Python ] 程設

‣ 更多 Supershero 的文章

文章代碼(AID): #1WfjTxVB (Python)