PTT數位生活區 / Python

[問題] 新手請教簡體中文編碼問題

看板Python作者youngberry (Asheqetam)時間12年前 (2013/12/31 03:17)推噓0(0推 0噓 5→)

留言5則, 2人參與討論串1/1

各位好，目前在windows英文介面中使用python2.7 IDLE欲處理大陸的文本分類語料庫時遇到了中文編碼的問題。主要是想利用該語料庫找搭配詞和文本類別之間的關連首先，我利用NLTK工具包裡的CategorizedPlaintextCorpusReader 讓python將文本及其所屬的類別對應起來。用chardet測出文件使用的是gb2312編碼。當我試著印出某一篇文章（中英夾雜）時 print reader.raw('C11-Space/C11-Space0001.txt').decode('gb2312', errors='ignore').encode('cp950', errors='ignore') 雖然大部分的中文字可以印出來。但是許多重要的字卻呈現?，這樣可能會影響結果不知道各先進有沒有比較好的處理方式呢？另外，在網路上看到有人推薦結巴分詞對中文進行分詞，還是說能不能用nltk裡的分詞工具對中文進行分詞？最後想請教該如何清除中文的停止詞呢？nltk包裡的停止詞語料庫似乎不包含中文。感謝回答先 -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 94.54.69.167

→

01/01 00:13, , 1^F

01/01 00:13, 1^F

→

01/01 00:14, , 2^F

01/01 00:14, 2^F

→

01/01 18:45, , 3^F

01/01 18:45, 3^F

→

01/01 18:47, , 4^F

01/01 18:47, 4^F

→

01/01 18:51, , 5^F

01/01 18:51, 5^F

‣ 返回看板[ Python ] 程設

‣ 更多 youngberry 的文章

文章代碼(AID): #1ImSQk5I (Python)

Python 近期熱門文章

2

11

[問題] openpyxl到底能不能調整全局Font？

1月前, 05/07

7

21

[問題] super() 與MRO 鏈斷裂問題

3月前, 02/24

3

13

[問題] vscode的debug模式不用考慮中文路徑

4月前, 02/01

1

15

[問題] skimage.io.imread()讀圖檔底色是黃色？

5月前, 12/28

2

4

[閒聊] 有人要合購股票pythony資料庫finlab嗎?

5月前, 12/23

1

1

[問題] python 3.14 free thread build

7月前, 10/29

1

13

[問題] 關於正規表示法的r'\1'?

7月前, 10/22

6

9

[問題] 請問有人用過OMIA PLUS影音平台自學嗎?

8月前, 10/09

更多近期熱門文章 >>

PTT數位生活區即時熱門文章

10

20

[情報] AMD 發表*新*的 Zen2 / Zen2+ CPU

[ PC_Shopping ]

2小時前, 06/17

5

15

[菜單] 300K 遊戲AI機

[ PC_Shopping ]

4小時前, 06/17

2

13

[菜單] 60K遊戲主機

[ PC_Shopping ]

5小時前, 06/16

11

22

Re: [情報] KIOXIA 2TB TLC SSD 電腦家特價

[ PC_Shopping ]

5小時前, 06/16

20

50

[菜單] 200K 遊戲娛樂機

[ PC_Shopping ]

7小時前, 06/16

38

107

[心得] 三星品質是不是已經不行了？

8小時前, 06/16

7

13

[購機] 外送專用手機 realme 15t oppo a6s

8小時前, 06/16

7

38

[請益] 移動式鍵盤架滑鼠架

[ PC_Shopping ]

8小時前, 06/16

更多即時熱門文章 >>

‣ 返回看板[ Python ] 程設

‣ 更多 youngberry 的文章

文章代碼(AID): #1ImSQk5I (Python)