PTT數位生活區 / Python

[問題] NLTK concordance encoding 問題

看板Python作者tacosung (taco)時間14年前 (2011/12/26 19:20)推噓1(1推 0噓 2→)

留言3則, 2人參與討論串1/1

大家好～最近剛好在跑一個Dutch corpus, 我使用的是utf-8, 可是在server上面跑nltk.concordance('van/IN') 就會出現 UnicodeEncodeError: 'big5' codec can't encode character u'\xeb' in position 28: illegal multibyte sequence 因為資料裡面有特殊符號,可是utf-8本身就都包含了這些特殊字元為什麼執行nltk.collocations()就沒有問題？我在猜也許是因為server的設定問題？！如果是這樣的話, 那請問要怎麼改成讓他可以顯現result? 附上我執行的指令： # coding=utf-8 # -*- encoding: utf-8 -*- import nltk, codecs, pattern.nl, re from pattern.nl import parse nl = codecs.open(r'ned_korp.txt', 'r', encoding = 'utf-8').read() my_text = parse(nl, tags=True, chunks=False) my_text = my_text.split(' ') nltk_all = nltk.Text(my_text) nltk_all.concordance('van/IN') 希望以上問題不會太蠢... 請大家鞭小力點先感謝大家 -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 219.91.77.44

→

12/27 00:01, , 1^F

12/27 00:01, 1^F

→

12/27 00:04, , 2^F

12/27 00:04, 2^F

推

01/16 20:32, , 3^F

01/16 20:32, 3^F

‣ 返回看板[ Python ] 程設

‣ 更多 tacosung 的文章

文章代碼(AID): #1E-5Y1AM (Python)

Python 近期熱門文章

2

11

[問題] openpyxl到底能不能調整全局Font？

1月前, 05/07

7

21

[問題] super() 與MRO 鏈斷裂問題

3月前, 02/24

3

13

[問題] vscode的debug模式不用考慮中文路徑

4月前, 02/01

1

15

[問題] skimage.io.imread()讀圖檔底色是黃色？

5月前, 12/28

2

4

[閒聊] 有人要合購股票pythony資料庫finlab嗎?

5月前, 12/23

1

1

[問題] python 3.14 free thread build

7月前, 10/29

1

13

[問題] 關於正規表示法的r'\1'?

7月前, 10/22

6

9

[問題] 請問有人用過OMIA PLUS影音平台自學嗎?

8月前, 10/09

更多近期熱門文章 >>

PTT數位生活區即時熱門文章

2

6

Re: [請益] 27吋2K螢幕求推薦

[ PC_Shopping ]

1小時前, 06/14

5

21

[請益] 請教一張顯卡接5台螢幕的方法?

[ PC_Shopping ]

2小時前, 06/14

3

7

[問題] Pixel 9 Threads、悠遊付當機

2小時前, 06/14

7

23

[購機] 可輸出電視的遊戲專用機

3小時前, 06/14

5

15

Re: [情報] iOS 27 Beta

7小時前, 06/14

8

13

[徵/全國/皆可] 桌上型DDR4雙通道 3200 32G(16G*

[ HardwareSale ]

7小時前, 06/14

16

87

Re: [新聞] 不演了！極客灣踢爆中國手機全造假中共

9小時前, 06/14

12

36

[問題] 台哥大1399一定有手機

9小時前, 06/14

更多即時熱門文章 >>

‣ 返回看板[ Python ] 程設

‣ 更多 tacosung 的文章

文章代碼(AID): #1E-5Y1AM (Python)