[問題] python讀檔時不認得中文字？

看板Python作者wohtp (會喵喵叫的大叔)時間11年前 (2014/10/08 16:25)推噓1(1推 0噓 15→)

留言16則, 6人參與討論串1/1

第一次來這裡問問題，請各位板友指教！其實我猜這大概不是python本身的問題... 環境：Windows 8.1 64-bit，非unicode編碼是繁中 Python 3.4.1 (Anaconda 2.1.0 64-bit) 文字檔編輯器試過notepad和notepad++，都有記得指定utf-8編碼如果我在interpreter下面直接打 s = '中文測試' 這樣一切都很好，python 3直接認得unicode，我要 s[0] 它就給我 '中'，等等。但是如果我另外存一個 test.txt，內容一樣只有中文測試四個字，然後做 f = open('test.txt') s = f.read() 只會吃到這個exception: UnicodeDecodeError: 'cp950' codec can't decode byte 0xe6 in position 6: illegal multibyte sequence 請大家開始隔空抓藥，謝謝！ -- 你喜歡下列哪一個學妹？ 1. 雖然吉他彈得比學姊好，在樂團裡卻甘願只當個副手 2. 擁有夏天一到必然黑化的體質，連同學好友都認不出來 3. 雖然嘴巴很嚴厲，但只要用甜點就可以收買，尤其喜歡鯛魚燒 4. 討厭學姊給她取的奇怪綽號，卻給小貓取了同一個名字 5. 極力維持自己嚴肅的形象，但是一戴上貓耳就會不自覺喵喵叫 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 123.110.141.102 ※ 文章網址: http://www.ptt.cc/bbs/Python/M.1412756706.A.390.html

→

uranusjr

10/08 16:32, , 1^F

10/08 16:32, 1^F

command line interpreter直接輸入中文沒問題，是讀檔才有問題

→

elleryq

10/08 16:33, , 2^F

10/08 16:33, 2^F

※ 編輯: wohtp (123.110.141.102), 10/08/2014 16:34:14 等下，我發現問題了...為什麼python會去用cp950（就是big5）解碼中文字？然後我照樓上說的， r = codecs.getreader('utf8')(f) r.read() 照樣給我那個cp950不識字的exception。 ※ 編輯: wohtp (123.110.141.102), 10/08/2014 16:52:16

→

os653

10/08 16:43, , 3^F

10/08 16:43, 3^F

f = open('test.txt', encoding = 'utf8') 這樣就好了。書上說預設就是utf-8啊！跟說好的不一樣（大哭）（滾） ※ 編輯: wohtp (123.110.141.102), 10/08/2014 16:55:26

→

alibuda174

10/08 17:00, , 4^F

10/08 17:00, 4^F

現在變成讀得進去顯示不出來： s = f.read() 這個過去了 print(s) 同一個exception。為什麼這麼愛用cp950！ ※ 編輯: wohtp (123.110.141.102), 10/08/2014 17:05:34

→

os653

10/08 17:11, , 5^F

10/08 17:11, 5^F

有讀進去了。直接打s會echo '\ufeff中文測試' 所以我終於懂了，一切還是源自Windows對big5病態的愛 orz 不能print()很麻煩耶，這樣要怎麼debug？ ※ 編輯: wohtp (123.110.141.102), 10/08/2014 17:19:56

→

alibuda174

10/08 17:37, , 6^F

10/08 17:37, 6^F

→

alibuda174

10/08 17:39, , 7^F

10/08 17:39, 7^F

→

alibuda174

10/08 17:39, , 8^F

10/08 17:39, 8^F

→

alibuda174

10/08 17:40, , 9^F

10/08 17:40, 9^F

→

os653

10/08 17:56, , 10^F

10/08 17:56, 10^F

我整理一下現在的狀況： 1. 至少在我這台win8機器上面，open()需要encoding = 'utf8'才能正常讀取／輸入unicode 2. 不管是cmd.exe還是windows powershell，用print()顯示unicode的問題千錯萬錯都是windows的錯 http://bugs.python.org/issue1602 3. 有workaround，我還沒試 https://github.com/Drekin/win-unicode-console （我還不會在Anaconda上面裝東西呢 -_-） ※ 編輯: wohtp (123.110.141.102), 10/08/2014 19:01:42

→

os653

10/08 19:37, , 11^F

10/08 19:37, 11^F

→

os653

10/08 19:39, , 12^F

10/08 19:39, 12^F

感謝樓上 <(_ _)><(_ _)><(_ _)> notepad或notepad++的utf-8編碼文件： open('filename', encoding = 'utf-8-sig') 這樣讀寫顯示都可以 notepad++的utf-8 without BOM文件： open('filename', encoding = 'utf8') 一樣可以讀寫顯示可是這BOM，果然千錯萬錯還是windows的錯！ ※ 編輯: wohtp (123.110.141.102), 10/08/2014 20:18:42 ※ 編輯: wohtp (123.110.141.102), 10/08/2014 20:19:20

→

alibuda174

10/08 22:39, , 13^F

10/08 22:39, 13^F

推

ccwang002

10/08 23:54, , 14^F

10/08 23:54, 14^F

→

ccwang002

10/08 23:56, , 15^F

10/08 23:56, 15^F