Re: [討論] 嘸蝦米規則和中文日文韓文大一統

看板Liu (無蝦米輸入法)作者 (*冰之鼠*)時間9年前 (2015/07/01 09:58), 9年前編輯推噓6(6020)
留言26則, 3人參與, 最新討論串11/14 (看更多)
來試試看用平板回文…XD ※ 引述《deltazone (洋蔥)》之銘言: : 沒錯! andriod手機的limd-hd輸入法打嘸蝦米已經是這樣了! : 也就是我說的"大字庫"概念,但沒有(簡日繁)模式可改變! : 且limd-hd混雜了未完成碼先出現的概念(如打lul後面選字會出現lulk "襲") : 這個先不提,不要混淆了! 部分取碼這個和我們現在討論的的確比較沒關係XD 不過既然提到 Lime HD,稍微提一下模式轉換的問題 在 Windows 底下,有大家熟知的 ,,T ,,J 之類的方式可以切換模式 (Win8 的 TSF 版好像沒有?待查證) Android 蝦也有左右滑動空白鍵的方式來切換 但是像 Lime HD、gcin、ibus 等等的通用輸入法框架 則需要通過獨立安裝字碼表,以各別獨立的輸入法看待 看起來通用輸入法框架似乎比較弱 但我覺得只是 Win 版和 Android 版把問題隱藏起來了 所以就算「大字庫」真的完成了,為了支援語言切換 還是會面臨到同樣的問題 你需要為各個語言模式提供儘儘排序不同的編碼表 不過我個人很期待它的完成 現在生活中偶爾也會出現一些罕用字與和製漢字 為了它們,我得特地去切換輸入法,輸個一兩字再回來 某方面來說也滿累的 在 Unicode 當道的時代 我認為已經不適合再用語言模式去區分能輸入的字了 像那個我們已經講到爛了的「鱇」XD : ====================================================================== : 最後提出當初想改變嘸蝦米,為何會想這麼改變的思路想法(除了推廣嘸蝦米之外) : 主要要說明的有下面兩點: : 一、大字庫 和 大一統東亞文字 : 二、模式(日繁簡韓)獨立 : ========================================================================== : 一、大字庫 和 大一統東亞文字: : 嘸蝦米是一個輸入法! : 那電腦文字內碼,其實也是一種輸入法 : (這裡所說的電腦文字內碼是如 GB 和 Big5 姑且稱為 [電腦內碼] ) : 為何說電腦內碼是一種輸入法?! : 因有一種輸入法是輸入內碼 (中文的電腦內碼) 碼號,然後就可以打出中文 : (我想這種輸入法日常應該沒人用,誰會去記無邏輯的電腦內碼) : 其實嘸蝦米的編碼概念(或其他任何輸入法皆相似) : 可以把它類比成 "電腦內碼" : (如lul=龍,lul是"龍"的碼) 大致是可以這樣類比 其實內碼輸入是最極端的輸入法了 對全文字提供絕對的支援,但前提是你要查得出編碼… : 最初"電腦內碼"多是像 shift_jis(日文) big5(繁體) 和 GB(簡體)等 一樣 : *****一種語言文字,一種"電腦內碼"去做對應***** : 現今不同語言文字,有不同的輸入法(如 日文 繁中 簡中 等),也如上面一樣 : 到此我的思路為: : 類比: "不同語言文字的輸入法" = "不同語言文字的電腦內碼" : 例如: (新注音輸入法 vs 日文xx輸入法) = (big5(繁中) vs shift_jis(日文) ) : 只使用中文的電腦內碼(如:big5),無法解開日文的電腦內碼(如shift_jis)的文字 : (不同語言的電腦內碼,無法解開其他語言的電腦內碼!!) : 不同語言的輸入法也一樣,無法打出彼此的文字 : (如:注音輸入法 無法打出韓文!) : *****後來,電腦內碼完善了 unicode ,且經過多次的修正 : 把全世界的各種文字和符號做大一統!!!! : (雖然GB BIG5 等等的電腦內碼還存在,但使用unicode編碼(內碼) 非常很盛行! ) : ////以上就是我想把嘸蝦米變成像unicode一樣,做大一統的思路,所以才會有"大字庫" : 和"一統東亞文字"的想法 : ///電腦內碼從每種文字一種字碼(如:GB和big5), : 到unicode大一統,所有語言文字全包 : ///靈感 就是想把嘸蝦米變成像unicode大一統的的概念 : 一定有人質疑把嘸蝦米變成大一統的好處呢? : 那我想"假裝質疑",為何unicode要大一統所有各國的文字?????? XD : 以前那樣分成GB big5 shift_jis等等各國不同的電腦內碼,不是也可以閱讀各國文字 : (類比成想打日文就用日文輸入法,想打韓文就用韓文輸入法) : unicode何必如此大工程的搞一個大一統呢!? 來回答你的假質疑wwwwww Unicode 要解決的是資料交換的問題 以前各國各文字都用不同的編碼,在資料交換時還得經過對映的手續 你還得清楚知道你的來源編碼、目標編碼是什麼 就像你先前提的,編樓不對就解不對文字 明明是 big5 卻用 latin-1 去解,那就會看到一堆亂碼 平平都是日文,你用 euc-jp 解 sjis 的文件也還是會錯 在近十幾年來,中日逐漸交流頻繁,在中文穿插日文的機會大幅上升 但自然是不可能在同一個文件中使用兩種編碼 於是就出現了「櫻花輸入法」 與「Unicode 補完計畫(現有代碼 big5-uao)」 這兩個讓人又愛又恨的東西 愛的是它確實解決了日文在繁中 big5 編碼下的問題 恨的是它不是標準,它沒有內建,就像戶政造字自爽一樣 假設全世界都用同樣的編碼交換資料,編碼轉換的問題也就消失了 我認為這是 Unicode 存在的意義,它把編碼統一的理由在這 而且是國際標準,簡單說就是放諸四海皆準 同時,在不同編碼間轉碼的時候也能作為中介參照 原本的多對多關係,可以大量簡化為多對一對多的兩層對照關係 轉碼的工程就小很多了 (雖然說到這還是無法理解 Unicode 8.0 為何加入獨角獸圖案…) 而最近全球化的發展更讓國與國之間的語言界線不再絕對 近幾年 Unicode 已經足夠流行了 在網路上若看到還維持大五碼或 sjis 等本地編碼的網頁 大多不是食古不化的機關設置的,就是從以前沿用到現在的 而也像我之前說的,和製漢字有回流至中文的狀況 一般使用中文也可能會不自覺要打那些漢字 基於以上理由,我認為無蝦米現行的模式切換稍嫌與時代脫節 而你提出的「大字庫」試圖突破模式間的隔閡,我認為這是主要價值 : 有人一定會質疑,輸入法和電腦內碼還是有所不同, : 但不想多講了XD 因為會一直繞圈子!XD : 思路如上! 那我再多嘴一下好了(遮臉) 輸入法就是接受使用者的輸入,經過轉換之後輸出成特定的字句 使用者的輸入是有一定邏輯的,可想成是經過某種編碼 就算是內碼輸入也是如此 就這點而言,把使用者的輸入類比成對字的編碼,我個人沒什麼意見XD : =========================================================================== : 二、模式(日簡繁)獨立 : 而unicode有一個東西叫做 "中日韓統一表意文字" : 其做法如何呢?! 如:戶 户 戸(繁 簡 日) 都把它的內碼編為U+6236 : 因為都是同一個意思,所以訂定為同一編碼! : 但是怎麼會看起來不一樣,因為使用 "繁簡日 各自的字型" 去區隔 : (大致是這樣,細節其他先不要追究了!XD) : 所以會有三種不同的 "戶""户""戸" 雖然我懂你的意思,但歹勢,這好是沒統一到的反例XD 中文維基這裡寫得很矛盾,同時舉它為統一和未統一的例字 事實上 戶 = U+6236 户 = U+6237 戸 = U+6238 不過論述大致上無誤 : 而我所想改變後的嘸蝦米, : 其中"模式" 就類比為 "字型" ,有前面unicode的包山包海的概念, : 然後使用一個東西獨立去 "分野"各種不同的語言文字 : ///這裡重點只有一個, "分野" 各種不同的語言文字 : ///我改變後的嘸蝦米,是以各種模式(日簡繁)去分野不同語言文字的輸入 : ///日文 繁中 簡中 分別有三種不同的字型,去區隔,且字型間彼此獨立, : 但是其電腦內碼 都在unicode的"大字庫"中! 這類比我覺得 OK 「戶」就放繁中第一順位 「户」就放簡中第一順位 「戸」就放日文第一順位 基本編碼共享,唯排序根據語言做最佳化 而若我的認知沒錯,你的「大字庫」概念是更進一步的 把「龍、竜、龙」一類的「多語同義漢字(暫稱)」也做整合 考慮到的是更廣的範圍 : ========================================================================== : 表達不是很好! : 沒有辦法說服大家 嘸蝦米大一統東亞文字的野心和盼望XD, : 但目前大家也都沒辦法說服我 大一統這個概念是個沒必要的構想XD : 這篇是以我想把嘸蝦米輸入法做大一統的靈感來源之一 : 但還望嘸蝦米能大力推廣 廣泛流傳下去XD : 只是不想在推廣上著墨了!說多了! 且一直打轉! 等於沒說! (淚) 我個人也是希望嘸蝦米更好 在電腦上、在行動裝置上,它還有很多可以改進的地方 推廣則涉及太多方面的因素,我想像力真的不太夠 orz ----- Sent from JPTT on my Htc Nexus 9. -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 122.116.109.225 ※ 文章網址: https://www.ptt.cc/bbs/Liu/M.1435715889.A.868.html ※ 編輯: Frozenmouse (122.116.109.225), 07/01/2015 10:03:03

07/01 16:44, , 1F
戶户戸 的unicode編碼的確如你說的 不同編碼
07/01 16:44, 1F

07/01 16:47, , 2F
維基百科 有誤?!XD
07/01 16:47, 2F

07/01 16:48, , 3F
當初unicode的字碼 和 字型 概念不知從哪 爬文看到XD
07/01 16:48, 3F

07/01 16:49, , 4F
所以舉了個爛例子XD 還是unicode後來的修訂編碼有改???
07/01 16:49, 4F

07/01 16:50, , 5F
先不理這個了XD 但概念思路大致如上
07/01 16:50, 5F

07/01 16:52, , 6F
另外 你說的沒錯 是"編碼共享"的概念 口拙還 是你高竿!
07/01 16:52, 6F

07/01 16:54, , 7F
另外你說的"多語同義漢字" 現在蝦米已經有了 !
07/01 16:54, 7F

07/01 16:57, , 8F
只是在編碼上"多語同義漢字"重疊碼,但選字方面沒有
07/01 16:57, 8F

07/01 16:58, , 9F
另還有你說的缺口問題
07/01 16:58, 9F

07/01 17:01, , 10F
另外最開頭的編碼表問題
07/01 17:01, 10F

07/01 17:02, , 11F
其中說到編碼表排序 我最開始想到的是 用資料庫的樣式
07/01 17:02, 11F

07/01 17:03, , 12F
只用一張編碼表 然後表格後 標示 這個碼為簡繁日文
07/01 17:03, 12F

07/01 17:04, , 13F
標示 是否為常用字 去影響選字的排序
07/01 17:04, 13F

07/01 17:06, , 14F
還有其他的標示等去影響選自順序 有點像 搜尋 的概念
07/01 17:06, 14F

07/01 17:07, , 15F
輸入法實際是否可以或方便這麼做 還需要軟體工程師
07/01 17:07, 15F

07/01 17:09, , 16F
如果有問題 就像你說的 每個模式 一個不同順序的編碼表
07/01 17:09, 16F

07/01 17:16, , 17F
==================================================
07/01 17:16, 17F

07/01 17:19, , 18F
Frozenmouse大的敘述 比我好太多了! 就是我要表達的!
07/01 17:19, 18F

07/01 17:27, , 19F
=================================================
07/01 17:27, 19F

07/01 18:48, , 20F
維基有錯其實很常見…XD
07/01 18:48, 20F

07/01 18:52, , 21F
還好沒會錯意,怕是我講錯搞錯你的意思XD
07/01 18:52, 21F

07/03 10:02, , 22F
其實就我個人來說反而不太喜歡分字表或切換式方式
07/03 10:02, 22F

07/03 10:03, , 23F
因為本來就是以繁中為主,會打其它語字漢字不是常用
07/03 10:03, 23F

07/03 10:04, , 24F
所以反而是統一字碼表,同碼選字的方式比較適合我
07/03 10:04, 24F

07/03 10:04, , 25F
這樣需要打這些少用字時反而方便
07/03 10:04, 25F

07/03 10:24, , 26F
嘿呀! 不影響平常打字速度的狀態下! 選字有其方便性!
07/03 10:24, 26F
文章代碼(AID): #1LaqanXe (Liu)
討論串 (同標題文章)
文章代碼(AID): #1LaqanXe (Liu)