[問題] 中文網頁的問題
有點白癡的問題
就是我抓了中文wikipedia的網頁 (編碼 UTF8
但是print 在螢幕上就一直是亂碼
試了很多種編碼!
目前效果最好 也應該是正確的是下面的轉碼方式
encode("gb2312", decode("utf8", XXX)) ---- A
encode("big5", decode("utf8", XXX)) ---- B
還是有些問題
主要是網頁是繁中簡中參半(html code才看得出來
EX:
假設網頁中有
Wikipedia:免责声明 這兩個字串
免責聲明
分別使用A和B兩種方式 結果如下
Wikipedia:轎孮汒隴
免責聲明
都使用B方式
Wikipedia:免??明
免責聲明
只用A就不用說了...根本是失敗!!
我已經知道抓到的資料哪些是簡中哪些是繁中
所以想請教 如何能避免這種奇怪的錯誤?? 謝謝!!
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 140.116.245.199
推
11/04 03:10, , 1F
11/04 03:10, 1F
→
11/04 03:10, , 2F
11/04 03:10, 2F
→
11/04 03:10, , 3F
11/04 03:10, 3F
→
11/04 03:11, , 4F
11/04 03:11, 4F
→
11/04 03:12, , 5F
11/04 03:12, 5F
→
11/04 09:29, , 6F
11/04 09:29, 6F
討論串 (同標題文章)
Perl 近期熱門文章
PTT數位生活區 即時熱門文章
10
113