[閒聊] 爬蟲背景執行就失敗

看板Python作者 (星空螢火蟲)時間3年前 (2021/03/20 22:39), 編輯推噓1(101)
留言2則, 1人參與, 3年前最新討論串1/1
前情提要:因為工作需要,要下載數千份文檔,老闆指示土法煉鋼一個一個按,於是我發憤開始學python… 手動下載的步驟是: 1.key年份跟代號按搜尋 2.跳出另一 tab 為搜尋結果 3.點結果中的文件連結,跳出另一 tab 有下載鏈 4.點下載鏈接下載 於是乎,用requests 試寫一段下載單一文件,成功。殊不知而,換了另一個文件就失敗。原來是因為網頁沒開著。 於是找到 selenium ,用各種方法都定位不到搜尋結果畫面中的連結位置。 最後的方法是用網址+selenium開搜尋結果畫面,就找到連結位置了,然後再把連結丟到requests終於可以順利下載,在這同時還用層層try except包裹住以及一堆sleep才順利抓到檔案。 昨晚臨走前我假會加了一句 opts.add_argument('--headless') 然後今天去運動路過辦公室就想說進去喵一眼 結果…抓到的檔案都是壞的,原本大小不一的檔案通通都11k,還損毀 ◢▆▅▄▃ 崩╰(〒皿〒)╯潰 ▃▄▅▆◣ 又要重跑了 註解掉昨晚臨走前加的那一行就又好了… 我週末下完檔案的夢想越來越不可能了 ----- Sent from JPTT on my Asus ASUS_X01BDA. -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 122.99.44.137 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1616251198.A.C0D.html

03/29 19:27, 3年前 , 1F
是抓甚麼方便私我看看嗎XD Selenium抓很慢
03/29 19:27, 1F

03/29 19:27, 3年前 , 2F
就算是用headless也會吃很多資源
03/29 19:27, 2F
文章代碼(AID): #1WLWa-mD (Python)
文章代碼(AID): #1WLWa-mD (Python)