Re: [問題] 請問 tag 和斷字的問題?
相關度當然跟字與字之間的距離有關;
有興趣可以找看看 tf-idf、information theory的論文來看。
比如說 I went to Yankee Stadium, where the baseball history lives.這句話,
baseball 跟Yankee的關係強不強呢?在information theory的角度來看,
這個字的相關性在三個字之間,當然比 "baseball team Yankees" 來得低;
不過要比起兩個句子分別提到,當然還是重要很多。
還有,Mariah Carey應該會是字典裡的字,作POS時應該要抓出來的。
如果你問的是information retrieveal,那問題應該是tokenize;
有沒有一個好的dictionary, 怎麼作part-of-speech當然是很困難的;
因為中文沒有歐美語系的字間間隔,所以要怎麼判定這是字/詞自然困難很多;
其實類似的問題德文也有;德文也有組合字的文法,
不過作decompound當然比中文整個tokenize來得簡單多了。
解決之道?我如果能全部解決裡面的問題,我早就去Google了...。 XD
※ 引述《chive (上!上!上!)》之銘言:
: 不知道適不適合在此發問,不適合將自刪
: -------------------------------------
: 1. Blog, 網摘(社會書籤),Flickr...etc.
: 都有提供 tag(標籤)的功能,通常每個標籤間以空一格來區分,
: 如果是外國人名呢? Ex:Mariah Carey,
: 這樣是算兩個標籤(Mariah 和 Carey)還是一個(Mariah Carey)呢?
: 如果是前者只要標籤有 Mariah 或 Carey的結果都會被搜尋出,
: 搜尋結果不是變多了但是相關度降低嗎?
: 2. 在資訊檢索時,中文搜尋的缺點「斷字」(不確定是不是這麼說),
: 是什麼意思?解決之道?
: (我用google搜尋過了,但是還是一頭霧水)
: 謝謝。
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 24.6.214.146
推
08/13 17:17, , 1F
08/13 17:17, 1F
推
08/13 23:33, , 2F
08/13 23:33, 2F
討論串 (同標題文章)
本文引述了以下文章的的內容:
完整討論串 (本文為第 2 之 4 篇):
Google 近期熱門文章
PTT數位生活區 即時熱門文章