Re: [討論] 嘸蝦米規則和中文日文韓文大一統

看板Liu (無蝦米輸入法)作者Frozenmouse (＊冰之鼠＊)時間11年前 (2015/06/29 22:26)推噓6(6推 0噓 34→)

留言40則, 3人參與討論串9/14 (看更多)

※ 引述《deltazone (洋蔥)》之銘言： : : 之前可能是我的誤解 : : 那這邊我用我的話解釋，你看看我有沒有理解錯誤 O_O : : 先簡化問題，單純就漢字來說 : : 「大字庫」是一個納入了所有漢字正規編碼、簡碼與容錯編碼的編碼表 : : 這邊的容錯包含了同語言的異體字以及不同語言的同源字 : : 而「同源」是指像「龍、竜、龙」或是「體、体」這樣的字群 : : 所以打 LUL、LQL 或 AXF，龍、竜、龙都會同時出現在選字區 : : 這邊再輔以「語言模式」的功能，來決定第一順位的排序 : : 比方說，就算我打的是 LQL = 竜，我在簡中模式底下的第一順位也還是「龙」 : : 就算我拆的是 YJFK = 壊，我在繁中也還是以「壞」為第一順位 : : 是這樣嗎？ : 我用字也不夠精確， : 另外大致沒錯!!! : 擔心誤會再補一個說明，目前蝦米所包含的中文字 : 以現有的嘸蝦米字碼不變為準，不增加編碼，不減少編碼 : 其實編碼都沒變，只是把日簡繁同樣的編碼(如lul)都統整在選字列中! : 現行的簡體中文模式下:打lul會出現"龙"，但在繁體中文模式中， : 打lul卻無法出現"龙"，改變成可以在字的選單中都出現"龙" OK 我懂了，現在我們想的是一樣的東西了…XDDD 那我想這大字庫至少需要定義幾項東西首先是一個文字的拆碼有點像廢話，不過這是實際的問題 XD 而為了達成前述跨語言整合的效果，需要有人去整理我所說的同源字有哪些現行的編碼表應該已經有相當程度的整理了否則做不到打繁出簡或日文模式的漢字輸出所以重點就是缺口有哪些了再來是該文字在各種模式下的優先序更精確來說，應該是考慮該文字的某種特定拆法的優先序這會關係到切模式時或是撞碼時排序的問題像是「圍、葉、啐、囲、叶」通通拆 OJJ 哪些屬於繁中，哪些屬於簡中，哪些是日文？如果不屬於該語言就可以不定義優先序，通通塞到最後面就好了若是該語言中有這些字，但拆法來自不同語言則可用該語言的拆法為優先，其他語言為後若是這些字同屬於該語言，那最後就是走現行的編碼順序所以打 OJJ 繁中模式可能會排成「圍、葉、啐、囲、叶」日文模式可能會排成「囲、葉、叶、圍、啐」（其中「啐」在現行日文模式打不出來）簡中…我懶得切輸入法了，同理推論 Orz : =========================================================================== : 我覺得是不是誤會，以為我說要在中文模式下也要打日文很有效率!(不是這樣) : 這不是我的初衷，在每個模式(日簡繁)時，是定義在此模式下，打此語言最有效率! : : "大字庫"的用意是每個模式(日簡繁)下，都可以用選字的方式，打出不同語言的文字! : 雖然打不同語言文字時速度比較慢，因為要選字，但至少能打出來! : 且此方式，不影響此模式下，該語言文字輸入的速度! : : 然後不要說這會拖慢輸入法的速度了XD : 使用繁體中文模式!繁體中文還是一樣快! : 但可以在繁中模式下，打出簡體字和日本漢字如此而已!! : ============================================================================ 是誤會，我並沒有「在中文模式下有效率地輸入日文」這樣的意思可能是我表達的問題吧 Orz : 至於怎樣才合格，你用的高興就算合格XD (開玩笑的別介意) : 只是不知道怎麼回答了! : : 中文模式下，就照原本的方式輸入日文， : 如打sa,等 : 但如打sa也出現さ和サ在字的選單中，只是絕對不是在第一順位 : (這點可以討論，詳細日文你比我熟! 你來提建議如何修改好了XD) 既然合不合格是自由心證，那我的想法是：不要改或者說，不要打掉原來的編碼，我較傾向的是修正和補完嘸蝦米的一些編碼其實就等於是把選字的動作內化了，我想善用這點剛剛研究了一下現在的日文模式假名編碼，至少有以下規則：（我是用官方提供的 gcin 日文模式表格試的） * 以羅馬拼音為基礎，以「,」結尾輸入平假名，以「.」為結尾輸入片假名 - 含有一定程度的容錯能力，如 TSU, TU, 都能出「つ」， LA, RA, 都能出「ら」 * 以羅馬拼音後接 V 輸入小型的假名，如 TUV, = っ * 以 L 或 X 為開頭也能輸入小型的假名，如 LTU, = っ * 拗音如きゅ可以一次輸出兩字，以此例為 KYU, * 特殊規則，如っ尚有 SS, TT, 等拆法，ー（長音符號）拆成 EE, 或 EE. 日文模式的漢字就不贅述了，對擅長字形的華語人士來說不成問題裡面確實可以找到幾個問題首先是假名的規則不透明上面這些不是我無聊試出來的，就是剛剛去官網查碼交叉比對來的官網給的規則只寫了這些：http://boshiamy.com/feature_basic_4_1.html 但有其他字如 VA. = ヷ、ヴァ沒寫出來而本身也有撞碼而與一般羅馬拼音選字序不同的地方像 LA, 我期待出的字是「ぁ」，但第一候選字是「ら」像 VA. 第一候選字是「ヷ」，可我期待的是「ヴァ」再來是標點符號我們的逗號是「，」，但日文中作為同樣用途的是「、」，也就是我們的頓號「，」反而比較少用雖然這可能影響不大，但和英文輸入的習慣不一樣的話，還是會卡卡的要改進有幾個方向 * 仿照拗音的出字方式，加速促音的輸入 - 如打 KKU, 可以輸入「っく」兩字，會比分開打 TT, KU, 來得快且直覺 * 增加「、」拆碼「,」，在日文模式下比「，」優先輸出 - 理由同上，「、」比「，」雖然功能一樣但更常用 * L* 的假名編碼改以小字優先，再來才是ら行容錯 - 「ら」多數人會選擇打 RA, 而非 LA, * V* 的假名編碼以「ヴ」的複合發音為優先，再來才是ヷ行字 - 前者較後者常用…至少我自己是很少看到後者 * 規則透明化，官網真的寫得太簡略了 - 「々」（漢字疊字）也算是常用符號，但我還得分開特別查才知道能怎麼打… 以上是日文程度 N95 的小弟一點見解 XD : 補充說明: : 優化日文，加入韓文，在如繁體中文模式下，大多打韓文和日文還是都會偏慢! : 因為要選字! : 只是因為大字庫的關係，在繁體中文模式下，也可以打得出來日文和韓文! : 同理韓文模式下，打繁體中文也會變慢!但也可以打出繁體中文來! 這個我現在理解你想做的是什麼了 : 想反問，各位大大，那有什麼其他的改變可以幫助嘸蝦米走出台灣呢? 這個我還真的不知道…（倒不過就你前面對我提出的客群的回應，你最大的重點就是「走出台灣」而手段之一是「讓嘸蝦米不只是中文輸入法」這也沒有絕對的對或錯，就只是個方法我的看法是，嘸蝦米現在本身的環境是封閉的在不了解法律的狀況下我怕對它的編碼表做什麼事，或是基於它衍生新的編碼表，並且公開會不會有法律上的問題於是只能龜在這裡打打嘴砲提建議，官方接不接受又是另一回事至於沒內建、授權問題這些前人也提過很多次了要是能走出這個封閉的環境，應該會比較好推廣 : : 簡碼能加速是因為我們大量的常用字被配了簡碼，進而大幅減少輸入的字碼數 : : 如果日文的常用字和我們差太多，可能會發生冷門字反而在嘸蝦米有簡碼的狀況 : : 或是反過來，常用字反而得用正規拆碼 : : 我指的是這件事 XD : 應該是我上面所說的問題? : 我是用模式(日簡中)去區分! 我指的是像下面的狀況比方說「對」這個字，在中文它很明顯非常常用，被指派了簡碼 A 但日文中「対」就沒有像中文那樣這麼常用那這個簡碼在日文加速的效果就不明顯了我明白你所說的切換語言模式不影響原本輸入速度的原因但我的問題不在這裡 : → deltazone: 還有做變形字根表，但一踏入才知漢字之大XD 06/29 17:08 : → deltazone: 可是屬於一頭熱型! 目前變形和簡體字表難產中XD 06/29 17:09 多少可以體會劉先生當初發明嘸蝦米的辛苦了吧 XD 這部分如果有辦法讓多人共同作業的話，可能會輕鬆一點 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 122.116.109.225 ※ 文章網址: https://www.ptt.cc/bbs/Liu/M.1435588014.A.BA9.html

推

xxvi

06/30 09:17, , 1^F

06/30 09:17, 1^F

→

xxvi

06/30 09:17, , 2^F

06/30 09:17, 2^F

→

xxvi

06/30 09:17, , 3^F

06/30 09:17, 3^F