Re: [問題] 自動判斷繁,簡體?

看板Python作者 (HIHIHI)時間15年前 (2010/01/21 01:37), 編輯推噓0(008)
留言8則, 4人參與, 最新討論串2/3 (看更多)
試過chardet模組,似乎不行,google了一下chardet 覺得它是可偵測big5,gbk等編碼,但跟我的問題不太一樣.. 可能是我表達的不清楚,再重新解釋一下,看有沒有人可以幫忙.. ch是unicode字串,它有可能是經由big5,gb2312的字串解碼而來: 也就是: ch = ch0.decode('big5') 或 ch = ch0.decode('gb2312') 我的需求是: 不論ch是由big5,gb2312而來,程式要能自動判斷, 並自動將ch由unicode轉成big5 ※ 引述《tumc (HIHIHI)》之銘言: : 請問: 如果 ch變數 是一個有可能是簡體字或繁體字的 unicode字串 : 那有辦法在程式中判斷ch是繁體字或簡體字嗎? -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 220.136.220.229

01/21 01:54, , 1F
你可以一直試不同的encode試到不會跳出 error ...
01/21 01:54, 1F

01/21 10:43, , 2F
這就不是自動判斷了吧
01/21 10:43, 2F

01/21 12:14, , 3F
如果你只有gb跟big5要判斷那只要試兩次就好啦,
01/21 12:14, 3F

01/21 12:19, , 4F
但是跳出error,那程式不是就停了嗎..
01/21 12:19, 4F

01/21 12:21, , 5F
自己try/except攔起來處理呀~
01/21 12:21, 5F

01/21 12:22, , 6F
也有些字是簡繁共用的
01/21 12:22, 6F

01/21 14:25, , 7F
再問一下,那如果把 簡體->unicode->繁體
01/21 14:25, 7F

01/21 22:12, , 8F
chardet只能判斷超過一定長度的字串,太短不行
01/21 22:12, 8F
文章代碼(AID): #1BLpzZfK (Python)
討論串 (同標題文章)
本文引述了以下文章的的內容:
以下文章回應了本文
完整討論串 (本文為第 2 之 3 篇):
文章代碼(AID): #1BLpzZfK (Python)