[問題]Content-Encoding:gzip 爬蟲如何解壓縮
最近在寫一隻爬蟲程式
遇到有些網站是採用gzip壓縮後再傳送資料
如果用python3 開啟
cj = Http_Cok.CookieJar()
opener = urllib.request.build_opener(urllib.request.HTTPCookieProcessor(cj))
res = urllib.request.Request(html,headers = Header_data())
data = opener.open(res).read()
print(data)
都是十六進制的編碼,到網路上google 好像是要先解壓縮
否則beautifulsoup也無法解讀,畢竟不是utf-8 格式
網路上的解法試了也沒用大部分都是介紹pyton2的解法
不知道有人知道python3要如何解嗎??
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 101.9.179.118
※ 文章網址: https://www.ptt.cc/bbs/Python/M.1476460056.A.DFE.html
推
10/15 02:35, , 1F
10/15 02:35, 1F
推
10/15 08:08, , 2F
10/15 08:08, 2F
推
10/15 12:29, , 3F
10/15 12:29, 3F
→
10/15 12:29, , 4F
10/15 12:29, 4F
→
10/15 16:16, , 5F
10/15 16:16, 5F
→
10/15 16:17, , 6F
10/15 16:17, 6F
→
10/15 16:17, , 7F
10/15 16:17, 7F
→
10/15 16:17, , 8F
10/15 16:17, 8F
Python 近期熱門文章
PTT數位生活區 即時熱門文章