Re: [問題] 棄蝦米 從倉頡 值不值得?
看板Liu (無蝦米輸入法)作者bibo9901 (function(){})()時間7年前 (2017/09/17 09:20)推噓10(10推 0噓 19→)留言29則, 8人參與討論串3/6 (看更多)
※ 引述《ANGELB (神仙B)》之銘言:
: 十五年前學了蝦米
: 那時聲勢如虹 打字比賽接連冠軍
: 在網路資訊較不如現今易於搜尋的時期
: 一度以為蝦米是王道
: 學成之後 細細回想其實這輸入法也還好而己
: 不知十幾年前嘸蝦米贏過倉頡這股潮流根據的事實從何而來
: 後來看了這一系列的比較文 有條有理
: https://goo.gl/5U4zp
這篇文章對於重碼字的分析很不嚴謹,
首先,只給出「重碼表」而沒有附上編碼表的來源,不知如何檢驗起
其次,論證看似有條理,但實際上有大漏洞,
1. 只考慮 Big5 字,也沒考慮字的出現機率。
自然語言有「齊夫定律」的現象,高頻字出現的機率會是低頻字的數百甚至數萬
倍,高頻字(如「精」、「睛」)重碼就很令人困擾,低頻字(如「筶」、「簹」
、「艡」)重碼就沒什麼關係。
2. 重碼率高,選字率就高,這是事實,但不代表打得慢!
嘸蝦米多數 2~3 碼,即使要加上 VRSF 或 1234 選字,也不過是 3~4 碼,比起倉
頡動不動就 4~5 碼的,誰快誰慢很難說。
不能像原來裡用一句「這項統計資料沒有原始來源可供驗證」來代過,更不能直
接推論選字率高等於需要的碼數較多
第五代倉頡和嘸蝦米的編碼表,在網路上都可以搜到,我統計出兩種輸入法的
總字數 重碼字數 允許多種拆法的字數 平均碼長
倉 70833 22552 (31.84%) 3941 ( 5.56%) 4.418 +- 0.76
嘸 19680 14449 (73.42%) 7950 (40.40%) 3.558 +- 0.64
可以發現
1. 重碼字數被嚴重低估了。尤其是嘸蝦米的重碼字數更是直破天際。但其中大
多數是因為標點、符號等,例如「,J」就有 18 個候選字
2. 倉頡四碼起跳是基本,而嘸蝦米很少超過四碼。符合上面第二點的質疑,嘸
蝦米即使要選字也不會比較慢
3. 倉頡幾乎沒有容錯空間,一個字就一種拆法,罕見字或異體字不會寫就沒救了
為了測試真實打字的情形,我從 Clueweb09 https://lemurproject.org/clueweb09/
取樣了共2000萬字當作語料庫。這是 2009 年爬下來的中文網頁,應該很符合現代人
輸入的需要。我統計出一份字頻表
https://github.com/iamalbert/ime-analysis/blob/master/cht.small.freq.json
另外,考慮實際輸入,重碼字也直接增加 1 碼,如「囧」原來拆 OBN 三碼,因為選字
變成 OBN2、OBNR 直接視為四碼,假設一律用最短碼輸入,計算碼長以字頻加權:
最常使用的 13806 字 (語料庫共 209491942 字)的情形
總字數 重碼字數 多種拆法的字數 平均碼長 加權碼長
倉 11790 1456 (12.35%) 1181 (10.02%) 4.065 +- 0.76 3.519
嘸 11797 7076 (59.98%) 5091 (43.16%) 3.407 +- 0.66 2.328
嘸* 3.507 +- 0.65 2.651
嘸** 3.579 +- 0.63 2.841
*: 假設只有 50% 的字用了最短碼
**: 假設只有 30% 的字用了最短碼
結論也很明顯:
1. 如同網頁所說,嘸蝦米用了一堆簡碼來解決重碼問題,效果實在不怎麼樣,
就算背了全部的簡根(100%),比起幾乎不背(30%) 大概兩個字只省 1 碼
2. 嘸蝦米的一碼二碼字的安排比傳統倉頡好太多了,倉頡只能省掉 0.5 碼,嘸
蝦米可以省掉 1 碼左右
3. 總地來說,嘸蝦米還是比倉頡快上 25% ~ 52% [註]
同場加映大新倉頡
總字數 重碼字數 多種拆法的字數 平均碼長 加權碼長
大新 11879 7648 (64.38%) 5482 (46.15%) 3.451 +- 0.71 2.042
大新* 3.553 +- 0.71 2.431
大新** 3.601 +- 0.70 2.614
毫無疑問地樂勝嘸蝦米,尤其平均 2 碼真是太銷魂了 :)
由此可見重碼、容錯都不是問題,只要常用字夠短,速度就會快。
TL;DR
大新倉頡 > 嘸蝦米 >> 傳統倉頡
原始碼都在 https://github.com/iamalbert/ime-analysis
[註] 打字速度(理論上)就是加權碼長的反比。我相信這樣算是很準的,
嘸蝦米加權碼長/大新加權碼長 = 2.138/2.042 = 114.39%
大新最快記錄/嘸蝦米最快記錄 = 238每分 / 209每分 = 113.88%
: 其實都被他說完了
: 說實在的 輸入法不夠理想是其次
: 重要的是使用不方便
: 現在公領域中 很常會用到電腦
: 購物啦
: 誠品書店查書的iPad啦
: 等等
: 根本沒有蝦米可打
: 不開放是一回事
: 不管什麼系統
: 行易的動作總是慢吞吞
: 支援度很差
: 反之
: 倉頡無處不在
: 連PS4遊戲機的OS繁中底下的輸入法
: 竟然只有兩種
: 一為注音
: 一為倉頡
: 倉頡的方便性
: 可能是拆字輸入法的第一名吧
: 不知道棄蝦米從倉頡
: 砍掉重練 投資報酬率值不值得?
這其實真的還好,就忍受那一兩分鐘而已,平常打game時的速度比較重要
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 163.23.97.126
※ 文章網址: https://www.ptt.cc/bbs/Liu/M.1505611203.A.99B.html
※ 編輯: bibo9901 (163.23.97.126), 09/17/2017 09:21:20
※ 編輯: bibo9901 (163.23.97.126), 09/17/2017 09:28:06
※ 編輯: bibo9901 (163.23.97.126), 09/17/2017 09:29:03
推
09/17 10:57, , 1F
09/17 10:57, 1F
※ 編輯: bibo9901 (163.23.97.126), 09/17/2017 13:38:59
推
09/17 14:59, , 2F
09/17 14:59, 2F
推
09/17 20:21, , 3F
09/17 20:21, 3F
推
09/18 00:31, , 4F
09/18 00:31, 4F
推
09/18 19:14, , 5F
09/18 19:14, 5F
推
09/18 22:46, , 6F
09/18 22:46, 6F
→
09/18 22:46, , 7F
09/18 22:46, 7F
推
09/29 18:49, , 8F
09/29 18:49, 8F
→
09/29 18:50, , 9F
09/29 18:50, 9F
→
09/29 18:51, , 10F
09/29 18:51, 10F
→
09/29 18:53, , 11F
09/29 18:53, 11F
推
10/09 14:55, , 12F
10/09 14:55, 12F
→
10/09 14:55, , 13F
10/09 14:55, 13F
推
10/09 15:17, , 14F
10/09 15:17, 14F
→
10/09 15:17, , 15F
10/09 15:17, 15F
→
10/09 15:17, , 16F
10/09 15:17, 16F
→
10/09 15:17, , 17F
10/09 15:17, 17F
→
10/09 15:17, , 18F
10/09 15:17, 18F
→
10/09 15:17, , 19F
10/09 15:17, 19F
推
10/26 05:31, , 20F
10/26 05:31, 20F
→
10/26 05:32, , 21F
10/26 05:32, 21F
→
10/26 05:32, , 22F
10/26 05:32, 22F
→
10/26 05:33, , 23F
10/26 05:33, 23F
→
10/26 05:35, , 24F
10/26 05:35, 24F
→
10/26 05:38, , 25F
10/26 05:38, 25F
→
10/26 05:39, , 26F
10/26 05:39, 26F
→
10/26 05:40, , 27F
10/26 05:40, 27F
→
10/26 05:41, , 28F
10/26 05:41, 28F
→
10/26 05:42, , 29F
10/26 05:42, 29F
討論串 (同標題文章)
Liu 近期熱門文章
PTT數位生活區 即時熱門文章