[問題] python讀檔時不認得中文字?
第一次來這裡問問題,請各位板友指教!
其實我猜這大概不是python本身的問題...
環境:Windows 8.1 64-bit,非unicode編碼是繁中
Python 3.4.1 (Anaconda 2.1.0 64-bit)
文字檔編輯器試過notepad和notepad++,都有記得指定utf-8編碼
如果我在interpreter下面直接打
s = '中文測試'
這樣一切都很好,python 3直接認得unicode,我要 s[0] 它就給我 '中',等等。
但是如果我另外存一個 test.txt,內容一樣只有 中文測試 四個字,然後做
f = open('test.txt')
s = f.read()
只會吃到這個exception:
UnicodeDecodeError: 'cp950' codec can't decode byte 0xe6 in position 6:
illegal multibyte sequence
請大家開始隔空抓藥,謝謝!
--
你喜歡下列哪一個學妹?
1. 雖然吉他彈得比學姊好,在樂團裡卻甘願只當個副手
2. 擁有夏天一到必然黑化的體質,連同學好友都認不出來
3. 雖然嘴巴很嚴厲,但只要用甜點就可以收買,尤其喜歡鯛魚燒
4. 討厭學姊給她取的奇怪綽號,卻給小貓取了同一個名字
5. 極力維持自己嚴肅的形象,但是一戴上貓耳就會不自覺喵喵叫
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 123.110.141.102
※ 文章網址: http://www.ptt.cc/bbs/Python/M.1412756706.A.390.html
→
10/08 16:32, , 1F
10/08 16:32, 1F
command line interpreter直接輸入中文沒問題,是讀檔才有問題
→
10/08 16:33, , 2F
10/08 16:33, 2F
※ 編輯: wohtp (123.110.141.102), 10/08/2014 16:34:14
等下,我發現問題了...為什麼python會去用cp950(就是big5)解碼中文字?
然後我照樓上說的,
r = codecs.getreader('utf8')(f)
r.read()
照樣給我那個cp950不識字的exception。
※ 編輯: wohtp (123.110.141.102), 10/08/2014 16:52:16
→
10/08 16:43, , 3F
10/08 16:43, 3F
f = open('test.txt', encoding = 'utf8')
這樣就好了。
書上說預設就是utf-8啊!跟說好的不一樣(大哭)(滾)
※ 編輯: wohtp (123.110.141.102), 10/08/2014 16:55:26
→
10/08 17:00, , 4F
10/08 17:00, 4F
現在變成讀得進去顯示不出來:
s = f.read() 這個過去了
print(s) 同一個exception。為什麼這麼愛用cp950!
※ 編輯: wohtp (123.110.141.102), 10/08/2014 17:05:34
→
10/08 17:11, , 5F
10/08 17:11, 5F
有讀進去了。直接打s會echo
'\ufeff中文測試'
所以我終於懂了,一切還是源自Windows對big5病態的愛 orz
不能print()很麻煩耶,這樣要怎麼debug?
※ 編輯: wohtp (123.110.141.102), 10/08/2014 17:19:56
→
10/08 17:37, , 6F
10/08 17:37, 6F
→
10/08 17:39, , 7F
10/08 17:39, 7F
→
10/08 17:39, , 8F
10/08 17:39, 8F
→
10/08 17:40, , 9F
10/08 17:40, 9F
→
10/08 17:56, , 10F
10/08 17:56, 10F
我整理一下現在的狀況:
1. 至少在我這台win8機器上面,open()需要encoding = 'utf8'才能正常
讀取/輸入unicode
2. 不管是cmd.exe還是windows powershell,用print()顯示unicode的問
題千錯萬錯都是windows的錯 http://bugs.python.org/issue1602
3. 有workaround,我還沒試 https://github.com/Drekin/win-unicode-console
(我還不會在Anaconda上面裝東西呢 -_-)
※ 編輯: wohtp (123.110.141.102), 10/08/2014 19:01:42
→
10/08 19:37, , 11F
10/08 19:37, 11F
→
10/08 19:39, , 12F
10/08 19:39, 12F
感謝樓上 <(_ _)><(_ _)><(_ _)>
notepad或notepad++的utf-8編碼文件:
open('filename', encoding = 'utf-8-sig') 這樣讀寫顯示都可以
notepad++的utf-8 without BOM文件:
open('filename', encoding = 'utf8') 一樣可以讀寫顯示
可是這BOM,果然千錯萬錯還是windows的錯!
※ 編輯: wohtp (123.110.141.102), 10/08/2014 20:18:42
※ 編輯: wohtp (123.110.141.102), 10/08/2014 20:19:20
→
10/08 22:39, , 13F
10/08 22:39, 13F
推
10/08 23:54, , 14F
10/08 23:54, 14F
→
10/08 23:56, , 15F
10/08 23:56, 15F
→
10/09 17:28, , 16F
10/09 17:28, 16F
Python 近期熱門文章
PTT數位生活區 即時熱門文章