Re: [J2Se] 有可能分辨UTF8的語系嗎?
※ 引述《neverfly (neverfly)》之銘言:
: 如果我的系統都是採用UTF8,
: 而使用者可能輸入正體、簡體中文或純英文,
: (假設中文部份可能混英文,但正體不會混簡體)
: 但三者必須做不同的處理,
: 所以在這之前,我必須先分辨出輸入的語系。
: 請問一下,Java有可能做到這樣的功能嗎?謝謝。
這只是牽涉到數據的處理,沒有理由使用 Java 作不到,只有實做上簡單與否,
以及實做出來的 runtime 效能是否可接受。
unicode standard 中沒有區分簡體與繁體,亞洲的象形文字是歸為同一類,主要
分佈在:(for Unicode Standard 5.0)
CJK Unified Ideographs, 4E00 - 9FBF
CJK Unified Ideographs Extension A, 3400 - 4DBF
CJK Unified Ideographs Extension B, 20000 - 2A6DF
CJK Compatibility Ideographs, F900 - FAFF
CJK Compatibility Ideographs Supplement, 2F800 - 2FA1F
另外跟漢字有相關的:
Kangxi Radicals(部首), 2F00 - 2FDF
Bopomofo(台灣使用的注音), 3100 - 312F
Bopomofo Extended(閩南話與客家話注音), 31A0 - 31BF (跟我看過的台語注音不同)
你可以自行下載上述的文件來研究,以 CJK Unified Ideographs 來說,
U8AD6 是 '論' 字,而 U8BBA 看起來則是 '論' 的簡體,自行找出是否每個繁體字
與其對應簡體是否有一定的關係在,或是簡繁體是否有分開的 range(以言字旁來說
繁體部分似乎是落在 U8A00 - U8B9F,而簡體的部分似乎落在 U8BA0 - U8C36)。
網路上可以找到簡繁體轉換的軟體或工具,通常是預先建表,轉換時查表去轉換,
所以你應該也可以找到別人已經先做好的對照表來使用。
* unicode 沒有區分簡繁體這說法,是因為有些簡體字與日本漢字的外觀與繁體
字相去不遠,在 unicode 中只以一個字呈現。
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 218.173.132.239
※ 編輯: sbrhsieh 來自: 218.173.132.239 (03/09 14:09)
※ 編輯: sbrhsieh 來自: 218.173.132.239 (03/09 14:12)
※ 編輯: sbrhsieh 來自: 218.173.132.239 (03/09 14:32)
推
03/09 16:40, , 1F
03/09 16:40, 1F
推
03/09 17:30, , 2F
03/09 17:30, 2F
→
03/09 17:32, , 3F
03/09 17:32, 3F
→
03/09 18:02, , 4F
03/09 18:02, 4F
→
03/09 20:00, , 5F
03/09 20:00, 5F
討論串 (同標題文章)
本文引述了以下文章的的內容:
完整討論串 (本文為第 2 之 2 篇):
java 近期熱門文章
3
14
PTT數位生活區 即時熱門文章