看板
[ CSSE ]
討論串[請益] 有沒有一樣是研究text mining的同好呢
共 5 篇文章
內容預覽:
其實是這樣的 text mining 可以粗略簡化為三個流程. 1.特值擷取: 因為電腦讀不懂語意 所以需要使用一些數學方法擷取出相對重要的. 詞,做為該文件的索引字,例如使用 ”馬英九” ”慢跑” 這兩個字. 做為馬英九慢跑這篇新聞的索引字。. 2.建造分類器:分類器有很多種 可以選擇SVM KN
(還有682個字)
內容預覽:
有些東西我還是看不太懂,而且錯字一堆. (例如 20newsgroup 是啥,裡頭的類別又是啥?). 你應該是卡在第一階段,但是跟你後面的敘述又搭不起來. 大概是我程度太差... 請不用理我,下面也當作我自言自語. 如果選定一個特徵詞庫(或是所有的 term 都下海... [奸笑]). 那責任算在那
(還有452個字)
內容預覽:
20newsgroup的資料算是相當容易判別的資料了. 用十年前的 Naive Bayesian Text Classifiation. (http://www.cs.cmu.edu/~knigam/papers/multinomial-aaaiws98.pdf ). 當training 和 tes
(還有197個字)