Re: [J2Se] 有可能分辨UTF8的語系嗎？

看板java作者sbrhsieh (sbr)時間17年前 (2009/03/09 14:08)推噓2(2推 0噓 3→)

留言5則, 4人參與討論串2/2 (看更多)

※ 引述《neverfly (neverfly)》之銘言： : 如果我的系統都是採用UTF8， : 而使用者可能輸入正體、簡體中文或純英文， : (假設中文部份可能混英文，但正體不會混簡體) : 但三者必須做不同的處理， : 所以在這之前，我必須先分辨出輸入的語系。 : 請問一下，Java有可能做到這樣的功能嗎？謝謝。這只是牽涉到數據的處理，沒有理由使用 Java 作不到，只有實做上簡單與否，以及實做出來的 runtime 效能是否可接受。 unicode standard 中沒有區分簡體與繁體，亞洲的象形文字是歸為同一類，主要分佈在：(for Unicode Standard 5.0) CJK Unified Ideographs, 4E00 - 9FBF CJK Unified Ideographs Extension A, 3400 - 4DBF CJK Unified Ideographs Extension B, 20000 - 2A6DF CJK Compatibility Ideographs, F900 - FAFF CJK Compatibility Ideographs Supplement, 2F800 - 2FA1F 另外跟漢字有相關的： Kangxi Radicals(部首), 2F00 - 2FDF Bopomofo(台灣使用的注音), 3100 - 312F Bopomofo Extended(閩南話與客家話注音), 31A0 - 31BF (跟我看過的台語注音不同) 你可以自行下載上述的文件來研究，以 CJK Unified Ideographs 來說， U8AD6 是 '論' 字，而 U8BBA 看起來則是 '論' 的簡體，自行找出是否每個繁體字與其對應簡體是否有一定的關係在，或是簡繁體是否有分開的 range(以言字旁來說繁體部分似乎是落在 U8A00 - U8B9F，而簡體的部分似乎落在 U8BA0 - U8C36)。網路上可以找到簡繁體轉換的軟體或工具，通常是預先建表，轉換時查表去轉換，所以你應該也可以找到別人已經先做好的對照表來使用。＊ unicode 沒有區分簡繁體這說法，是因為有些簡體字與日本漢字的外觀與繁體字相去不遠，在 unicode 中只以一個字呈現。 -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 218.173.132.239 ※ 編輯: sbrhsieh 來自: 218.173.132.239 (03/09 14:09) ※ 編輯: sbrhsieh 來自: 218.173.132.239 (03/09 14:12) ※ 編輯: sbrhsieh 來自: 218.173.132.239 (03/09 14:32)