Re: [J2Se] 有可能分辨UTF8的語系嗎?

看板java作者 (sbr)時間17年前 (2009/03/09 14:08), 編輯推噓2(203)
留言5則, 4人參與, 最新討論串2/2 (看更多)
※ 引述《neverfly (neverfly)》之銘言: : 如果我的系統都是採用UTF8, : 而使用者可能輸入正體、簡體中文或純英文, : (假設中文部份可能混英文,但正體不會混簡體) : 但三者必須做不同的處理, : 所以在這之前,我必須先分辨出輸入的語系。 : 請問一下,Java有可能做到這樣的功能嗎?謝謝。 這只是牽涉到數據的處理,沒有理由使用 Java 作不到,只有實做上簡單與否, 以及實做出來的 runtime 效能是否可接受。 unicode standard 中沒有區分簡體與繁體,亞洲的象形文字是歸為同一類,主要 分佈在:(for Unicode Standard 5.0) CJK Unified Ideographs, 4E00 - 9FBF CJK Unified Ideographs Extension A, 3400 - 4DBF CJK Unified Ideographs Extension B, 20000 - 2A6DF CJK Compatibility Ideographs, F900 - FAFF CJK Compatibility Ideographs Supplement, 2F800 - 2FA1F 另外跟漢字有相關的: Kangxi Radicals(部首), 2F00 - 2FDF Bopomofo(台灣使用的注音), 3100 - 312F Bopomofo Extended(閩南話與客家話注音), 31A0 - 31BF (跟我看過的台語注音不同) 你可以自行下載上述的文件來研究,以 CJK Unified Ideographs 來說, U8AD6 是 '論' 字,而 U8BBA 看起來則是 '論' 的簡體,自行找出是否每個繁體字 與其對應簡體是否有一定的關係在,或是簡繁體是否有分開的 range(以言字旁來說 繁體部分似乎是落在 U8A00 - U8B9F,而簡體的部分似乎落在 U8BA0 - U8C36)。 網路上可以找到簡繁體轉換的軟體或工具,通常是預先建表,轉換時查表去轉換, 所以你應該也可以找到別人已經先做好的對照表來使用。 * unicode 沒有區分簡繁體這說法,是因為有些簡體字與日本漢字的外觀與繁體 字相去不遠,在 unicode 中只以一個字呈現。 -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 218.173.132.239 ※ 編輯: sbrhsieh 來自: 218.173.132.239 (03/09 14:09) ※ 編輯: sbrhsieh 來自: 218.173.132.239 (03/09 14:12) ※ 編輯: sbrhsieh 來自: 218.173.132.239 (03/09 14:32)

03/09 16:40, , 1F
謝謝你詳細的回答,給了我一個明確的方向
03/09 16:40, 1F

03/09 17:30, , 2F
Unicode的確把CJK攪在一起做瀨尿牛丸,所以以前某前輩
03/09 17:30, 2F

03/09 17:32, , 3F
罵這是沒文化的人設計的,我認為的確泯滅文化差異性
03/09 17:32, 3F

03/09 18:02, , 4F
我也覺得日韓的字實在是不應該稱象形文字。
03/09 18:02, 4F

03/09 20:00, , 5F
但話說, 提出"中日韓表意文字"的好像是台灣代表耶 (笑)
03/09 20:00, 5F
文章代碼(AID): #19jB9BDF (java)
討論串 (同標題文章)
文章代碼(AID): #19jB9BDF (java)