Re: [問題] 請問 tag 和斷字的問題?

看板Google (谷歌Google)作者 ( )時間19年前 (2006/08/14 01:25), 編輯推噓1(100)
留言1則, 1人參與, 最新討論串3/4 (看更多)
: 2. 在資訊檢索時,中文搜尋的缺點「斷字」(不確定是不是這麼說), : 是什麼意思?解決之道? 中文斷詞 Word Segmentation 用google找應該很多才對... 問題很簡單 舉個例子 "土地公有政策" 可能會被斷成 1. 土地 公有 政策 2. 土地公 有 政策 到底哪種斷詞的方法是對使用者有意義的呢?這就是斷詞的研究囉。 解決之道,一般最簡單的是用2-gram indexing,也就是兩個字當做一個詞來索引。    舉個例子 "土地公有政策" 可以得 土地 地公 公有 有政 政策 這些詞 然後索引到資料庫內 之後使用者只要查 土地 或 政策 就可以找到這個句子。  簡單的方法缺點當然不少,相信各位應該看的出來。  比較複雜的方法就是用機率模型,比看哪種pattern機率高。  以上簡單說明希望可以幫上你的忙~ -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 140.123.217.51

08/15 03:44, , 1F
謝謝。瞭解大概了。:-)
08/15 03:44, 1F
文章代碼(AID): #14ts292s (Google)
文章代碼(AID): #14ts292s (Google)