[問題] 加速Python爬蟲速度

看板DataScience作者 (jie)時間10月前 (2024/01/06 01:50), 10月前編輯推噓0(0010)
留言10則, 3人參與, 10月前最新討論串1/1
大家好,我們想要把ISBN上2014到2024的書籍資料全部用爬蟲爬出來,可是使用selenium 寫出爬蟲程式(程式如下附連結,寫得有點冗不好意思)後,發現爬每一筆資料都要花大約 8秒鐘,這樣如果要爬十年資料會爬不完(大約要花1400小時)。 所以想請教有甚麼爬蟲爬 得比較快的寫法嗎? 感謝! https://drive.google.com/drive/folders/1pMXmZaob-qAh4VTXlcLReCv6W072NHPC?usp=s haring 目前有使用https://scrapeops.io/selenium-web-scraping-playbook/python-selenium disable-image-loading/,讓它不要讀取圖片只讀取文字,有快了一些些但還是6秒左右 ,用requests寫好像也會比較快?但還是想詢問有沒有更快速的Python爬法,因為我們的 時間不夠多,謝謝板上的各位! -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.136.241.164 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1704477043.A.325.html ※ 編輯: jianingtw (114.136.241.164 臺灣), 01/06/2024 01:52:02

01/06 02:07, 10月前 , 1F
先對每一個步驟印出 log 看時間瓶頸是什麼步驟或動作啊
01/06 02:07, 1F

01/06 02:08, 10月前 , 2F
確定了瓶頸後,如果那是可以改善的就改,如果那不能改善,
01/06 02:08, 2F

01/06 02:08, 10月前 , 3F
那就開很多台電腦一起爬
01/06 02:08, 3F

01/08 15:57, 10月前 , 4F
時間不夠多,拿預算來湊;看了一下程式碼,覺得樓上說的調
01/08 15:57, 4F

01/08 15:58, 10月前 , 5F
整對你們來說會有點吃力;瓶頸可以直接說是 selenium 然後
01/08 15:58, 5F

01/08 15:59, 10月前 , 6F
沒有同時間送多個請求啦,看是要自己調整,還是花錢或是找
01/08 15:59, 6F

01/08 16:00, 10月前 , 7F
朋友幫忙調整,都不行的話就開多台電腦一起爬吧,開個 20台
01/08 16:00, 7F

01/08 16:00, 10月前 , 8F
大概就三天
01/08 16:00, 8F

01/13 00:42, 10月前 , 9F
requests+bs4 應該會快很多 然後不用一頁頁點 觀察一下網址
01/13 00:42, 9F

01/13 00:43, 10月前 , 10F
不過要記得用 session 它參數有部分是用 session 在帶的
01/13 00:43, 10F
文章代碼(AID): #1bc45pCb (DataScience)
文章代碼(AID): #1bc45pCb (DataScience)