Re: [討論] 嘸蝦米規則和中文日文韓文大一統

看板Liu (無蝦米輸入法)作者 (*冰之鼠*)時間9年前 (2015/06/29 22:26), 編輯推噓6(6034)
留言40則, 3人參與, 最新討論串9/14 (看更多)
※ 引述《deltazone (洋蔥)》之銘言: : : 之前可能是我的誤解 : : 那這邊我用我的話解釋,你看看我有沒有理解錯誤 O_O : : 先簡化問題,單純就漢字來說 : : 「大字庫」是一個納入了所有漢字正規編碼、簡碼與容錯編碼的編碼表 : : 這邊的容錯包含了同語言的異體字以及不同語言的同源字 : : 而「同源」是指像「龍、竜、龙」或是「體、体」這樣的字群 : : 所以打 LUL、LQL 或 AXF,龍、竜、龙都會同時出現在選字區 : : 這邊再輔以「語言模式」的功能,來決定第一順位的排序 : : 比方說,就算我打的是 LQL = 竜,我在簡中模式底下的第一順位也還是「龙」 : : 就算我拆的是 YJFK = 壊,我在繁中也還是以「壞」為第一順位 : : 是這樣嗎? : 我用字也不夠精確, : 另外大致沒錯!!! : 擔心誤會再補一個說明,目前蝦米所包含的中文字 : 以現有的嘸蝦米字碼不變為準,不增加編碼,不減少編碼 : 其實編碼都沒變,只是把日 簡 繁 同樣的編碼(如lul)都統整在選字列中! : 現行的簡體中文模式下:打lul會出現"龙",但在繁體中文模式中, : 打lul卻無法出現"龙",改變成可以在字的選單中都出現"龙" OK 我懂了,現在我們想的是一樣的東西了…XDDD 那我想這大字庫至少需要定義幾項東西 首先是一個文字的拆碼 有點像廢話,不過這是實際的問題 XD 而為了達成前述跨語言整合的效果,需要有人去整理我所說的同源字有哪些 現行的編碼表應該已經有相當程度的整理了 否則做不到打繁出簡或日文模式的漢字輸出 所以重點就是缺口有哪些了 再來是該文字在各種模式下的優先序 更精確來說,應該是考慮該文字的某種特定拆法的優先序 這會關係到切模式時或是撞碼時排序的問題 像是「圍、葉、啐、囲、叶」通通拆 OJJ 哪些屬於繁中,哪些屬於簡中,哪些是日文? 如果不屬於該語言就可以不定義優先序,通通塞到最後面就好了 若是該語言中有這些字,但拆法來自不同語言 則可用該語言的拆法為優先,其他語言為後 若是這些字同屬於該語言,那最後就是走現行的編碼順序 所以打 OJJ 繁中模式可能會排成「圍、葉、啐、囲、叶」 日文模式可能會排成「囲、葉、叶、圍、啐」(其中「啐」在現行日文模式打不出來) 簡中…我懶得切輸入法了,同理推論 Orz : =========================================================================== : 我覺得是不是誤會,以為我說要在中文模式下也要打日文很有效率!(不是這樣) : 這不是我的初衷,在每個模式(日簡繁)時,是定義在此模式下,打此語言最有效率! : : "大字庫"的用意是每個模式(日簡繁)下,都可以用選字的方式,打出不同語言的文字! : 雖然打不同語言文字時速度比較慢,因為要選字,但至少能打出來! : 且此方式,不影響此模式下,該語言文字輸入的速度! : : 然後不要說這會拖慢輸入法的速度了XD : 使用繁體中文模式!繁體中文還是一樣快! : 但可以在繁中模式下,打出簡體字和日本漢字如此而已!! : ============================================================================ 是誤會,我並沒有「在中文模式下有效率地輸入日文」這樣的意思 可能是我表達的問題吧 Orz : 至於怎樣才合格,你用的高興就算合格XD (開玩笑的別介意) : 只是不知道怎麼回答了! : : 中文模式下,就照原本的方式輸入日文, : 如打sa,等 : 但如打sa也出現さ和サ 在字的選單中,只是絕對不是在第一順位 : (這點可以討論,詳細日文你比我熟! 你來提建議如何 修改好了XD) 既然合不合格是自由心證,那我的想法是:不要改 或者說,不要打掉原來的編碼,我較傾向的是修正和補完 嘸蝦米的一些編碼其實就等於是把選字的動作內化了,我想善用這點 剛剛研究了一下現在的日文模式假名編碼,至少有以下規則: (我是用官方提供的 gcin 日文模式表格試的) * 以羅馬拼音為基礎,以「,」結尾輸入平假名,以「.」為結尾輸入片假名 - 含有一定程度的容錯能力,如 TSU, TU, 都能出「つ」, LA, RA, 都能出「ら」 * 以羅馬拼音後接 V 輸入小型的假名,如 TUV, = っ * 以 L 或 X 為開頭也能輸入小型的假名,如 LTU, = っ * 拗音如きゅ可以一次輸出兩字,以此例為 KYU, * 特殊規則,如 っ 尚有 SS, TT, 等拆法,ー(長音符號)拆成 EE, 或 EE. 日文模式的漢字就不贅述了,對擅長字形的華語人士來說不成問題 裡面確實可以找到幾個問題 首先是假名的規則不透明 上面這些不是我無聊試出來的,就是剛剛去官網查碼交叉比對來的 官網給的規則只寫了這些:http://boshiamy.com/feature_basic_4_1.html 但有其他字如 VA. = ヷ、ヴァ 沒寫出來 而本身也有撞碼而與一般羅馬拼音選字序不同的地方 像 LA, 我期待出的字是「ぁ」,但第一候選字是「ら」 像 VA. 第一候選字是「ヷ」,可我期待的是「ヴァ」 再來是標點符號 我們的逗號是「,」,但日文中作為同樣用途的是「、」,也就是我們的頓號 「,」反而比較少用 雖然這可能影響不大,但和英文輸入的習慣不一樣的話,還是會卡卡的 要改進有幾個方向 * 仿照拗音的出字方式,加速促音的輸入 - 如打 KKU, 可以輸入「っく」兩字,會比分開打 TT, KU, 來得快且直覺 * 增加「、」拆碼「,」,在日文模式下比「,」優先輸出 - 理由同上,「、」比「,」雖然功能一樣但更常用 * L* 的假名編碼改以小字優先,再來才是ら行容錯 - 「ら」多數人會選擇打 RA, 而非 LA, * V* 的假名編碼以「ヴ」的複合發音為優先,再來才是ヷ行字 - 前者較後者常用…至少我自己是很少看到後者 * 規則透明化,官網真的寫得太簡略了 - 「々」(漢字疊字)也算是常用符號,但我還得分開特別查才知道能怎麼打… 以上是日文程度 N95 的小弟一點見解 XD : 補充說明: : 優化日文,加入韓文,在如繁體中文模式下,大多打韓文和日文還是都會偏慢! : 因為要選字! : 只是因為大字庫的關係,在繁體中文模式下,也可以打得出來日文和韓文! : 同理韓文模式下,打繁體中文也會變慢!但也可以打出繁體中文來! 這個我現在理解你想做的是什麼了 : 想反問,各位大大,那有什麼其他的改變可以幫助嘸蝦米走出台灣呢? 這個我還真的不知道…(倒 不過就你前面對我提出的客群的回應,你最大的重點就是「走出台灣」 而手段之一是「讓嘸蝦米不只是中文輸入法」 這也沒有絕對的對或錯,就只是個方法 我的看法是,嘸蝦米現在本身的環境是封閉的 在不了解法律的狀況下 我怕對它的編碼表做什麼事,或是基於它衍生新的編碼表,並且公開 會不會有法律上的問題 於是只能龜在這裡打打嘴砲提建議,官方接不接受又是另一回事 至於沒內建、授權問題這些前人也提過很多次了 要是能走出這個封閉的環境,應該會比較好推廣 : : 簡碼能加速是因為我們大量的常用字被配了簡碼,進而大幅減少輸入的字碼數 : : 如果日文的常用字和我們差太多,可能會發生冷門字反而在嘸蝦米有簡碼的狀況 : : 或是反過來,常用字反而得用正規拆碼 : : 我指的是這件事 XD : 應該是我上面所說的問題? : 我是用模式(日簡中)去區分! 我指的是像下面的狀況 比方說「對」這個字,在中文它很明顯非常常用,被指派了簡碼 A 但日文中「対」就沒有像中文那樣這麼常用 那這個簡碼在日文加速的效果就不明顯了 我明白你所說的切換語言模式不影響原本輸入速度的原因 但我的問題不在這裡 : → deltazone: 還有做變形字根表,但一踏入才知漢字之大XD 06/29 17:08 : → deltazone: 可是屬於一頭熱型! 目前變形和簡體字表難產中XD 06/29 17:09 多少可以體會劉先生當初發明嘸蝦米的辛苦了吧 XD 這部分如果有辦法讓多人共同作業的話,可能會輕鬆一點 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 122.116.109.225 ※ 文章網址: https://www.ptt.cc/bbs/Liu/M.1435588014.A.BA9.html

06/30 09:17, , 1F
如果大字庫指的是把同源(編碼相同?)的字甚至符號全
06/30 09:17, 1F

06/30 09:17, , 2F
部列出,那麼感覺會比現有的候選字串長很多?這大概就
06/30 09:17, 2F

06/30 09:17, , 3F
需要留給嘸蝦米公司評估實用性跟推出後能不能吸引新使
06/30 09:17, 3F

06/30 09:17, , 4F
用者了,我個人是偏好它打字時幾乎可以不看候選字串這
06/30 09:17, 4F

06/30 09:17, , 5F
一點就是XD
06/30 09:17, 5F

06/30 09:21, , 6F
另外自製編碼表作為建議應該是沒有問題的,但是「對現
06/30 09:21, 6F

06/30 09:21, , 7F
有編碼表做什麼」這邊我不太懂,如果是要自己建一套測
06/30 09:21, 7F

06/30 09:21, , 8F
試版的新蝦米輸入並發布可能有疑慮,不過提出修正想法
06/30 09:21, 8F

06/30 09:21, , 9F
公開討論或提給公司的話應該沒有太大問題啦:~
06/30 09:21, 9F

06/30 11:36, , 10F
沒有錯,假設今天我有時間整理了一個基於嘸蝦米的改
06/30 11:36, 10F

06/30 11:36, , 11F
進表格,自行發佈給人試用,那可能就會有問題…
06/30 11:36, 11F

06/30 11:37, , 12F
所以不是用其他方式規避就是只能交給官方決定了
06/30 11:37, 12F

06/30 11:37, , 13F
我那句主要指的是這個XD
06/30 11:37, 13F

06/30 11:39, , 14F
至於大字庫的候選字,以他的論點來說,應該是在不破
06/30 11:39, 14F

06/30 11:39, , 15F
壞繁中現有編碼的前提下做這件事,若排序得好的話打
06/30 11:39, 15F

06/30 11:39, , 16F
起來手感應該是和現在一樣的
06/30 11:39, 16F

06/30 11:50, , 17F
同源指的是跨語言判定屬同義的字,不知有無正式名稱
06/30 11:50, 17F

06/30 23:51, , 18F
同源應該是指中日韓統一表意文字!?
06/30 23:51, 18F

06/30 23:54, , 19F
unicode編碼
06/30 23:54, 19F

06/30 23:55, , 20F
連結打不上 自行維基百科 "中日韓統一表意文字"
06/30 23:55, 20F

07/01 01:28, , 21F
很接近,但我不確定有無因為異體字而被編成兩個碼的
07/01 01:28, 21F

07/01 01:33, , 22F
另外像叶(cn)和葉(tw&jp)是被我歸在同源的
07/01 01:33, 22F

07/01 01:33, , 23F
CJK統一表意文字則著重在字形
07/01 01:33, 23F

07/01 01:58, , 24F
https://goo.gl/J0zIiP 這是中文維基條目
07/01 01:58, 24F

07/01 01:59, , 25F
可能要找其他名稱,同源會和統一漢字的來源混淆XD
07/01 01:59, 25F

07/01 04:49, , 26F
把現有嘸蝦米 繁 簡 日 模式中 所有字 所有編碼 統整
07/01 04:49, 26F

07/01 04:51, , 27F
就可以初步解決 "鱇" 在繁中模式 找不到狀況!
07/01 04:51, 27F

07/01 04:56, , 28F
也是我所說的大字庫 的雛型了 沒那麼複雜
07/01 04:56, 28F

07/01 04:58, , 29F
現行的簡體模式打 rst可以打出"叶"
07/01 04:58, 29F

07/01 05:02, , 30F
現行的繁體模式打 ojj也可以打出葉(只是要選字)
07/01 05:02, 30F

07/01 05:08, , 31F
異體字的部分 之前整理變形字根有遇過!
07/01 05:08, 31F

07/01 05:11, , 32F
如:"奐""換"有些字體 下面是兩點如八 看著字打 打不出
07/01 05:11, 32F

07/01 05:16, , 33F
中日韓統一表意文字 的確 和你說的不太一樣! XD
07/01 05:16, 33F

07/01 05:17, , 34F
目前可以聯想到的是 大陸官方發行的 簡化字 對照表
07/01 05:17, 34F

07/01 05:24, , 35F
另外 編碼表要補缺口 我覺得看要(能)做到什麼程度!?
07/01 05:24, 35F

07/01 05:25, , 36F
不補缺口其實也可 只是做的比較粗淺,
07/01 05:25, 36F

07/01 05:29, , 37F
像andriod手機 使用lime-hd打嘸蝦米那樣!
07/01 05:29, 37F

07/01 05:41, , 38F
另外"對"簡碼的問題,提個方案,日文模式下,簡碼重訂
07/01 05:41, 38F

07/01 05:43, , 39F
但打a 也可以找到 "對"XD 只是在後面的順序!
07/01 05:43, 39F

07/01 05:46, , 40F
有點大膽,但本著各個模式其實是獨立的輸入法看待!
07/01 05:46, 40F
文章代碼(AID): #1LaLMkkf (Liu)
討論串 (同標題文章)
文章代碼(AID): #1LaLMkkf (Liu)