Re: [問題] 請問 tag 和斷字的問題?

看板Google (谷歌Google)作者 (遺憾太常。)時間19年前 (2006/08/13 11:56), 編輯推噓2(200)
留言2則, 2人參與, 最新討論串2/4 (看更多)
相關度當然跟字與字之間的距離有關; 有興趣可以找看看 tf-idf、information theory的論文來看。 比如說 I went to Yankee Stadium, where the baseball history lives.這句話, baseball 跟Yankee的關係強不強呢?在information theory的角度來看, 這個字的相關性在三個字之間,當然比 "baseball team Yankees" 來得低; 不過要比起兩個句子分別提到,當然還是重要很多。 還有,Mariah Carey應該會是字典裡的字,作POS時應該要抓出來的。 如果你問的是information retrieveal,那問題應該是tokenize; 有沒有一個好的dictionary, 怎麼作part-of-speech當然是很困難的; 因為中文沒有歐美語系的字間間隔,所以要怎麼判定這是字/詞自然困難很多; 其實類似的問題德文也有;德文也有組合字的文法, 不過作decompound當然比中文整個tokenize來得簡單多了。 解決之道?我如果能全部解決裡面的問題,我早就去Google了...。 XD ※ 引述《chive (上!上!上!)》之銘言: : 不知道適不適合在此發問,不適合將自刪 : ------------------------------------- : 1. Blog, 網摘(社會書籤),Flickr...etc. : 都有提供 tag(標籤)的功能,通常每個標籤間以空一格來區分, : 如果是外國人名呢? Ex:Mariah Carey, : 這樣是算兩個標籤(Mariah 和 Carey)還是一個(Mariah Carey)呢? : 如果是前者只要標籤有 Mariah 或 Carey的結果都會被搜尋出, : 搜尋結果不是變多了但是相關度降低嗎? : 2. 在資訊檢索時,中文搜尋的缺點「斷字」(不確定是不是這麼說), : 是什麼意思?解決之道? : (我用google搜尋過了,但是還是一頭霧水) : 謝謝。 -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 24.6.214.146

08/13 17:17, , 1F
推information theory...最基礎的理論...大家好好念數學吧XD
08/13 17:17, 1F

08/13 23:33, , 2F
先謝謝回答。嗯,你寫得很清楚我看得很模糊,不太懂耶??!!
08/13 23:33, 2F
文章代碼(AID): #14tgBqXS (Google)
文章代碼(AID): #14tgBqXS (Google)