[問題] 中文網頁的問題

看板Perl作者 (nothing)時間15年前 (2009/11/03 21:07), 編輯推噓1(105)
留言6則, 2人參與, 最新討論串1/2 (看更多)
有點白癡的問題 就是我抓了中文wikipedia的網頁 (編碼 UTF8 但是print 在螢幕上就一直是亂碼 試了很多種編碼! 目前效果最好 也應該是正確的是下面的轉碼方式 encode("gb2312", decode("utf8", XXX)) ---- A encode("big5", decode("utf8", XXX)) ---- B 還是有些問題 主要是網頁是繁中簡中參半(html code才看得出來 EX: 假設網頁中有 Wikipedia:免责声明 這兩個字串 免責聲明 分別使用A和B兩種方式 結果如下 Wikipedia:轎孮汒隴 免責聲明 都使用B方式 Wikipedia:免??明 免責聲明 只用A就不用說了...根本是失敗!! 我已經知道抓到的資料哪些是簡中哪些是繁中 所以想請教 如何能避免這種奇怪的錯誤?? 謝謝!! -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 140.116.245.199

11/04 03:10, , 1F
你用A的時候網頁編碼有沒有選對?
11/04 03:10, 1F

11/04 03:10, , 2F
底下正確的中文是不是html entities?
11/04 03:10, 2F

11/04 03:10, , 3F
麻煩打開原始碼看
11/04 03:10, 3F

11/04 03:11, , 4F
不管是簡中還是繁中 正確的轉換都不會有亂碼
11/04 03:11, 4F

11/04 03:12, , 5F
頂多就是問號或掉字或換成相似字
11/04 03:12, 5F

11/04 09:29, , 6F
網頁編碼都是charset=utf8 使以B的方法對了 只是轉不好?
11/04 09:29, 6F
文章代碼(AID): #1Ay2hvbj (Perl)
討論串 (同標題文章)
文章代碼(AID): #1Ay2hvbj (Perl)