Re: [討論] 嘸蝦米規則和中文日文韓文大一統

看板Liu (無蝦米輸入法)作者 (洋蔥)時間9年前 (2015/07/01 04:22), 編輯推噓1(107)
留言8則, 2人參與, 最新討論串10/14 (看更多)
: OK 我懂了,現在我們想的是一樣的東西了…XDDD : 那我想這大字庫至少需要定義幾項東西 : 首先是一個文字的拆碼 : 有點像廢話,不過這是實際的問題 XD : 而為了達成前述跨語言整合的效果,需要有人去整理我所說的同源字有哪些 : 現行的編碼表應該已經有相當程度的整理了 嘿呀!其實很多碼現行的嘸蝦米都可以通, 如在簡體模式下用繁體的拆碼方式打lul 可以打出"龙" : 否則做不到打繁出簡或日文模式的漢字輸出 : 所以重點就是缺口有哪些了 : 再來是該文字在各種模式下的優先序 : 更精確來說,應該是考慮該文字的某種特定拆法的優先序 : 這會關係到切模式時或是撞碼時排序的問題 : 像是「圍、葉、啐、囲、叶」通通拆 OJJ : 哪些屬於繁中,哪些屬於簡中,哪些是日文? : 如果不屬於該語言就可以不定義優先序,通通塞到最後面就好了 : 若是該語言中有這些字,但拆法來自不同語言 : 則可用該語言的拆法為優先,其他語言為後 : 若是這些字同屬於該語言,那最後就是走現行的編碼順序 : 所以打 OJJ : 繁中模式可能會排成「圍、葉、啐、囲、叶」 : 日文模式可能會排成「囲、葉、叶、圍、啐」(其中「啐」在現行日文模式打不出來) : 簡中…我懶得切輸入法了,同理推論 Orz 沒錯! andriod手機的limd-hd輸入法打嘸蝦米已經是這樣了! 也就是我說的"大字庫"概念,但沒有(簡日繁)模式可改變! 且limd-hd混雜了未完成碼先出現的概念(如打lul後面選字會出現lulk "襲") 這個先不提,不要混淆了! : 既然合不合格是自由心證,那我的想法是:不要改 : : 以上是日文程度 N95 的小弟一點見解 XD 日文方面你比我專業太多了!!!這點還是交給專業XD : 這個我還真的不知道…(倒 : 不過就你前面對我提出的客群的回應,你最大的重點就是「走出台灣」 : 而手段之一是「讓嘸蝦米不只是中文輸入法」 : 這也沒有絕對的對或錯,就只是個方法 : 我的看法是,嘸蝦米現在本身的環境是封閉的 : 在不了解法律的狀況下 : 我怕對它的編碼表做什麼事,或是基於它衍生新的編碼表,並且公開 : 會不會有法律上的問題 : 於是只能龜在這裡打打嘴砲提建議,官方接不接受又是另一回事 : 至於沒內建、授權問題這些前人也提過很多次了 : 要是能走出這個封閉的環境,應該會比較好推廣 的確是個很實際的問題!!! 不想讓蝦米沒落呀! : 我指的是像下面的狀況 : 比方說「對」這個字,在中文它很明顯非常常用,被指派了簡碼 A : 但日文中「対」就沒有像中文那樣這麼常用 : 那這個簡碼在日文加速的效果就不明顯了 : 我明白你所說的切換語言模式不影響原本輸入速度的原因 : 但我的問題不在這裡 這個的確是問題!日文果然還是要專家來! XD : 多少可以體會劉先生當初發明嘸蝦米的辛苦了吧 XD : 這部分如果有辦法讓多人共同作業的話,可能會輕鬆一點 嘿呀! ====================================================================== 最後提出當初想改變嘸蝦米,為何會想這麼改變的思路想法(除了推廣嘸蝦米之外) 主要要說明的有下面兩點: 一、大字庫 和 大一統東亞文字 二、模式(日繁簡韓)獨立 ========================================================================== 一、大字庫 和 大一統東亞文字: 嘸蝦米是一個輸入法! 那電腦文字內碼,其實也是一種輸入法 (這裡所說的電腦文字內碼是如 GB 和 Big5 姑且稱為 [電腦內碼] ) 為何說電腦內碼是一種輸入法?! 因有一種輸入法是輸入內碼 (中文的電腦內碼) 碼號,然後就可以打出中文 (我想這種輸入法日常應該沒人用,誰會去記無邏輯的電腦內碼) 其實嘸蝦米的編碼概念(或其他任何輸入法皆相似) 可以把它類比成 "電腦內碼" (如lul=龍,lul是"龍"的碼) --------------------------------------------------------------------------- 最初"電腦內碼"多是像 shift_jis(日文) big5(繁體) 和 GB(簡體)等 一樣 *****一種語言文字,一種"電腦內碼"去做對應***** ------------------------------------------------------------------------ 現今不同語言文字,有不同的輸入法(如 日文 繁中 簡中 等),也如上面一樣 ------------------------------------------------------------------------ 到此我的思路為: 類比: "不同語言文字的輸入法" = "不同語言文字的電腦內碼" 例如: (新注音輸入法 vs 日文xx輸入法) = (big5(繁中) vs shift_jis(日文) ) ---------------------------------------------------------------------- 只使用中文的電腦內碼(如:big5),無法解開日文的電腦內碼(如shift_jis)的文字 (不同語言的電腦內碼,無法解開其他語言的電腦內碼!!) 不同語言的輸入法也一樣,無法打出彼此的文字 (如:注音輸入法 無法打出韓文!) ----------------------------------------------------------------------- *****後來,電腦內碼完善了 unicode ,且經過多次的修正 把全世界的各種文字和符號做大一統!!!! (雖然GB BIG5 等等的電腦內碼還存在,但使用unicode編碼(內碼) 非常很盛行! ) -------------------------------------------------------------------- ////以上就是我想把嘸蝦米變成像unicode一樣,做大一統的思路,所以才會有"大字庫" 和"一統東亞文字"的想法 -------------------------------------------------------------------------- ///電腦內碼從每種文字一種字碼(如:GB和big5), 到unicode大一統,所有語言文字全包 ///靈感 就是想把嘸蝦米變成像unicode大一統的的概念 -------------------------------------------------------------------------- 一定有人質疑把嘸蝦米變成大一統的好處呢? 那我想"假裝質疑",為何unicode要大一統所有各國的文字?????? XD 以前那樣分成GB big5 shift_jis等等各國不同的電腦內碼,不是也可以閱讀各國文字 (類比成想打日文就用日文輸入法,想打韓文就用韓文輸入法) unicode何必如此大工程的搞一個大一統呢!? ------------------------------------------------------------------- 有人一定會質疑,輸入法和電腦內碼還是有所不同, 但不想多講了XD 因為會一直繞圈子!XD 思路如上! =========================================================================== 二、模式(日簡繁)獨立 而unicode有一個東西叫做 "中日韓統一表意文字" 其做法如何呢?! 如:戶 户 戸(繁 簡 日) 都把它的內碼編為U+6236 因為都是同一個意思,所以訂定為同一編碼! 但是怎麼會看起來不一樣,因為使用 "繁簡日 各自的字型" 去區隔 (大致是這樣,細節其他先不要追究了!XD) 所以會有三種不同的 "戶""户""戸" 而我所想改變後的嘸蝦米, 其中"模式" 就類比為 "字型" ,有前面unicode的包山包海的概念, 然後使用一個東西獨立去 "分野"各種不同的語言文字 ///這裡重點只有一個, "分野" 各種不同的語言文字 ///我改變後的嘸蝦米,是以各種模式(日簡繁)去分野不同語言文字的輸入 ///日文 繁中 簡中 分別有三種不同的字型,去區隔,且字型間彼此獨立, 但是其電腦內碼 都在unicode的"大字庫"中! ========================================================================== 表達不是很好! 沒有辦法說服大家 嘸蝦米大一統東亞文字的野心和盼望XD, 但目前大家也都沒辦法說服我 大一統這個概念是個沒必要的構想XD 這篇是以我想把嘸蝦米輸入法做大一統的靈感來源之一 但還望嘸蝦米能大力推廣 廣泛流傳下去XD 只是不想在推廣上著墨了!說多了! 且一直打轉! 等於沒說! (淚) -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 36.224.136.122 ※ 文章網址: https://www.ptt.cc/bbs/Liu/M.1435695753.A.C91.html

07/01 07:54, , 1F
我知道你的意思,不過你舉的「戶」剛好是反例
07/01 07:54, 1F

07/01 07:56, , 2F
事實上中文維基寫的有點矛盾,事實上繁簡日的「戶」
07/01 07:56, 2F

07/01 07:56, , 3F
被編在 U+6236 ~ U+6238
07/01 07:56, 3F

07/01 07:57, , 4F
沒注意打了兩次事實上 囧
07/01 07:57, 4F

07/01 17:44, , 5F
確實舉錯例! (羞)
07/01 17:44, 5F

07/01 17:45, , 6F
以前爬文看到unicode 在處理日韓簡繁 的漢字 是如此!
07/01 17:45, 6F

07/01 17:46, , 7F
以字碼 加 字型 去分野的概念! 不知後來是否有變?!
07/01 17:46, 7F

07/01 17:47, , 8F
概念不變 但一時參考了維基百科 舉了個 不好的例子XD
07/01 17:47, 8F
文章代碼(AID): #1Lalg9oH (Liu)
討論串 (同標題文章)
文章代碼(AID): #1Lalg9oH (Liu)