[問題] 爬蟲 url 空白 的問題

看板Python作者 (:))時間5年前 (2019/08/09 13:44), 5年前編輯推噓0(0016)
留言16則, 4人參與, 5年前最新討論串1/1
Hi 大家好 小妹新手上路 正在試用 python3 urllib.request 從一個網站裡下載多個pdf檔案 後來發現 400 錯誤 仔細研究後 發現 有些 pdf 的link 有空白,在正確的網址下空白則用%20代替 想請問大家該怎麼解決? 因為有些pdf link 沒有空白的問題 目前在猜想是不是可以這樣寫? import urllib.parse for url in url_list[:] url =root_url + url urllib.parse.quote(url) getFile(url) 麻煩各位大大了,謝謝!! -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 99.241.153.151 (加拿大) ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1565329458.A.B85.html ※ 編輯: ibgvdlbj (99.241.153.151 加拿大), 08/09/2019 13:53:49

08/09 15:03, 5年前 , 1F
url encode?
08/09 15:03, 1F

08/09 15:06, 5年前 , 2F
replace(' ','%20') ?
08/09 15:06, 2F

08/09 23:07, 5年前 , 3F
可以請1樓上大大 詳細一點說明嗎? 新手上路 @@
08/09 23:07, 3F

08/09 23:07, 5年前 , 4F
2樓大大 我試著寫
08/09 23:07, 4F

08/09 23:07, 5年前 , 5F
url = root_url + url
08/09 23:07, 5F

08/09 23:07, 5年前 , 6F
url.replace(“ “, “%20”)
08/09 23:07, 6F

08/09 23:07, 5年前 , 7F
getFile(url)
08/09 23:07, 7F

08/09 23:07, 5年前 , 8F
還是不行、不知道哪邊寫錯@@
08/09 23:07, 8F

08/09 23:11, 5年前 , 9F
url = url.repalce()......
08/09 23:11, 9F

08/10 00:04, 5年前 , 10F
已跑出~ 謝謝C大!
08/10 00:04, 10F

08/10 00:04, 5年前 , 11F
另外想請問,我寫raw_url 給定網址(第一頁)下載,但
08/10 00:04, 11F

08/10 00:04, 5年前 , 12F
其實還有下5頁的pdf file (想下載100份 pdf files) 不
08/10 00:04, 12F

08/10 00:04, 5年前 , 13F
知道在這部分要怎麼寫呢?
08/10 00:04, 13F

08/10 09:17, 5年前 , 14F
學習google噢 爬蟲有許多資源和範例
08/10 09:17, 14F

08/10 09:25, 5年前 , 15F
網頁有連結就找出來 沒有就觀察規則
08/10 09:25, 15F

08/10 12:58, 5年前 , 16F
好的,我來試試,有問題再上來請教,謝謝各位 :)
08/10 12:58, 16F
文章代碼(AID): #1TJGWok5 (Python)
文章代碼(AID): #1TJGWok5 (Python)