[問題] 爬蟲 jsp網頁 亂碼

看板Python作者 (渾沌與秩序)時間9年前 (2016/03/14 21:03), 編輯推噓0(0011)
留言11則, 3人參與, 最新討論串1/1
大家好 這幾天再爬一個jsp的網頁 但爬到的內容中文部分都是亂碼 不管我怎樣編譯都沒辦法辨識(轉utf-8) 我在想是不是jsp的編碼比較特別? 大概長這樣 ªZc ÷ºXÄ¥c ± 我爬了一堆文,想破頭也對python的編碼快搞混了 想請大家幫忙想想,不知道問題是出在哪一段上 如果是用瀏覽器看網頁是正常中文的 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.25.210.41 ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1457960608.A.4CB.html

03/14 21:17, , 1F
要看那個網頁用什麼encoding
03/14 21:17, 1F

03/14 21:31, , 2F
Accept-Encoding:gzip, deflate 應該是這個吧?
03/14 21:31, 2F

03/14 21:31, , 3F
我有嘗試編譯gzip 但一樣亂碼....
03/14 21:31, 3F

03/15 13:06, , 4F
可能交代一下抓取的方式,要不然很難猜你的問題
03/15 13:06, 4F

03/15 13:07, , 5F
另外要確認一下你所在的環境是在 windows or linux 上
03/15 13:07, 5F

03/15 13:07, , 6F
windows cmd 上一般預設編碼都是 big5, 而 linux 上
03/15 13:07, 6F

03/15 13:07, , 7F
目前環境一般都 utf8, 終端機的編碼也直接是 utf8
03/15 13:07, 7F

03/15 13:08, , 8F
若你抓取要顯示的文字編碼與工作顯示環境編碼不同會亂碼
03/15 13:08, 8F

03/15 13:09, , 9F
至於1,2 說那個是壓縮,我想應該是要問 charset 編碼
03/15 13:09, 9F

03/17 00:42, , 10F
感謝K大!!! 我是使用windows環境的 所以是big5
03/17 00:42, 10F

03/17 00:43, , 11F
之前一直被utf-8給誤導,以為都是使用他去編碼的
03/17 00:43, 11F
文章代碼(AID): #1MvhQWJB (Python)
文章代碼(AID): #1MvhQWJB (Python)