看板 [ Google ]
討論串[問題] 請問 tag 和斷字的問題?
共 4 篇文章
首頁
上一頁
1
下一頁
尾頁

推噓0(0推 0噓 0→)留言0則,0人參與, 最新作者chive (上!上!上!)時間19年前 (2006/08/13 02:44), 編輯資訊
2
0
0
內容預覽:
不知道適不適合在此發問,不適合將自刪. -------------------------------------. 1. Blog, 網摘(社會書籤),Flickr...etc.. 都有提供 tag(標籤)的功能,通常每個標籤間以空一格來區分,. 如果是外國人名呢? Ex:Mariah Carey
(還有219個字)

推噓2(2推 0噓 0→)留言2則,0人參與, 最新作者Baudelaire (遺憾太常。)時間19年前 (2006/08/13 11:56), 編輯資訊
0
0
0
內容預覽:
相關度當然跟字與字之間的距離有關;. 有興趣可以找看看 tf-idf、information theory的論文來看。. 比如說 I went to Yankee Stadium, where the baseball history lives.這句話,. baseball 跟Yankee的關係強
(還有267個字)

推噓1(1推 0噓 0→)留言1則,0人參與, 最新作者davekong ( )時間19年前 (2006/08/14 01:25), 編輯資訊
0
0
0
內容預覽:
中文斷詞 Word Segmentation 用google找應該很多才對.... 問題很簡單 舉個例子. "土地公有政策" 可能會被斷成. 1. 土地 公有 政策. 2. 土地公 有 政策. 到底哪種斷詞的方法是對使用者有意義的呢?這就是斷詞的研究囉。. 解決之道,一般最簡單的是用2-gram i
(還有78個字)

推噓4(4推 0噓 4→)留言8則,0人參與, 最新作者Baudelaire (遺憾太常。)時間19年前 (2006/08/14 01:56), 編輯資訊
0
0
0
內容預覽:
2-gram的衍生當然就是n-gram,看用多少字做indexing,. 這是業界比較常用的方法;. 機率模型在NLP裡最常用的大概還是HMM,. Hidden Markov Model,然後用大量的corpus去train你的model,. 因為不同的文章,比如新聞報導或者blog,所使用的字詞不
(還有289個字)
首頁
上一頁
1
下一頁
尾頁