Re: [問題] 請問一下unicode的問題
借用這個很久以前的標題...
最近我在寫一個程式
其中會需要把ptt上的文章轉成unicode
一般的中文沒什麼問題
但若遇到中日文混用的文章,以big5去解碼會出現錯誤
像這樣:
UnicodeDecodeError: 'big5' codec can't decode bytes in position 41-42:
illegal multibyte sequence
我先暫時用忽略錯誤的方式進行
unicodeLines.append(unicode(textline,'Big5','ignore').encode('utf8'))
只要別遇到中日文混用的都沒啥問題
只是日文字的部份會亂掉
這樣問題有什麼比較好的解法嗎?
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 59.115.118.109
→
10/02 23:25, , 1F
10/02 23:25, 1F
推
10/03 01:15, , 2F
10/03 01:15, 2F
→
10/03 11:04, , 3F
10/03 11:04, 3F
討論串 (同標題文章)
完整討論串 (本文為第 18 之 18 篇):
Python 近期熱門文章
PTT數位生活區 即時熱門文章