Re: [問題] 請問 tag 和斷字的問題?
: 2. 在資訊檢索時,中文搜尋的缺點「斷字」(不確定是不是這麼說),
: 是什麼意思?解決之道?
中文斷詞 Word Segmentation 用google找應該很多才對...
問題很簡單 舉個例子
"土地公有政策" 可能會被斷成
1. 土地 公有 政策
2. 土地公 有 政策
到底哪種斷詞的方法是對使用者有意義的呢?這就是斷詞的研究囉。
解決之道,一般最簡單的是用2-gram indexing,也就是兩個字當做一個詞來索引。
舉個例子
"土地公有政策" 可以得 土地 地公 公有 有政 政策 這些詞 然後索引到資料庫內
之後使用者只要查 土地 或 政策 就可以找到這個句子。
簡單的方法缺點當然不少,相信各位應該看的出來。
比較複雜的方法就是用機率模型,比看哪種pattern機率高。
以上簡單說明希望可以幫上你的忙~
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 140.123.217.51
推
08/15 03:44, , 1F
08/15 03:44, 1F
討論串 (同標題文章)
本文引述了以下文章的的內容:
完整討論串 (本文為第 3 之 4 篇):
Google 近期熱門文章
PTT數位生活區 即時熱門文章