[問題] 新手請教簡體中文編碼問題

看板Python作者 (Asheqetam)時間12年前 (2013/12/31 03:17), 編輯推噓0(005)
留言5則, 2人參與, 最新討論串1/1
各位好, 目前在windows英文介面中使用python2.7 IDLE欲處理大陸的文本分類語料庫時 遇到了中文編碼的問題。主要是想利用該語料庫找搭配詞和文本類別之間的關連 首先,我利用NLTK工具包裡的CategorizedPlaintextCorpusReader 讓python將文本及其所屬的類別對應起來。 用chardet測出文件使用的是gb2312編碼。 當我試著印出某一篇文章(中英夾雜)時 print reader.raw('C11-Space/C11-Space0001.txt').decode('gb2312', errors='ignore').encode('cp950', errors='ignore') 雖然大部分的中文字可以印出來。但是許多重要的字卻呈現?,這樣可能會影響結果 不知道各先進有沒有比較好的處理方式呢? 另外,在網路上看到有人推薦結巴分詞對中文進行分詞, 還是說能不能用nltk裡的分詞工具對中文進行分詞? 最後想請教該如何清除中文的停止詞呢?nltk包裡的停止詞語料庫似乎不包含中文。 感謝回答先 -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 94.54.69.167

01/01 00:13, , 1F
可能是big5編碼沒有簡字,轉成utf8或直接用unicode處
01/01 00:13, 1F

01/01 00:14, , 2F
理?或是套繁簡轉換成正體?
01/01 00:14, 2F

01/01 18:45, , 3F
感謝回覆,昨晚對編碼找到了解決辦法
01/01 18:45, 3F

01/01 18:47, , 4F
先在第一行宣告# -*- coding: utf-8 -*-
01/01 18:47, 4F

01/01 18:51, , 5F
程式碼encode的部分相對改成.encode('utf-8') 即可
01/01 18:51, 5F
文章代碼(AID): #1ImSQk5I (Python)
文章代碼(AID): #1ImSQk5I (Python)