[問題]想請教關於計算文章相似度的問題

看板CSSE (電腦科學及軟體工程)作者 (yeh)時間7年前 (2017/12/27 11:41), 編輯推噓1(104)
留言5則, 2人參與, 7年前最新討論串1/1
各位好,想請教關於文章相似度計算的問題. 目前知道計算文章相似度有一些演算法,例如下列這四種: 1.LSI 2.LDA 3.Doc2vec 4.TF-IDF 因為想運用這四種演算法做文章相似度的計算,但由於之前無相關背景, 也請教過一些資訊系的教授,但目前問到的教授,皆未從事相關領域的研究. 能否請教各位有經驗的大大是否能提供一些關於這些演算法的說明介紹 或是哪些網站可以找尋到相關的資訊,以便了解如何實作出這幾個系統,謝謝. 或是有哪些特定的軟體,可以模擬這幾種算法,並能夠求解,謝謝. 所要解決的題目網站:http://kdd.ics.uci.edu/databases/reuters21578/reuters21578.html -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 118.160.173.125 ※ 文章網址: https://www.ptt.cc/bbs/CSSE/M.1514346096.A.4BC.html

12/27 13:07, 7年前 , 1F
google "gensim tutorial", 有LSI計算相似度的範例, lda,
12/27 13:07, 1F

12/27 13:07, 7年前 , 2F
word2vec 基本上也是換個 method call
12/27 13:07, 2F

12/27 13:08, 7年前 , 3F
gensim 是 python 的 library
12/27 13:08, 3F

12/29 00:55, 7年前 , 4F
謝謝分享!
12/29 00:55, 4F

12/29 23:30, 7年前 , 5F
我找了一下,是否是Python有提供這幾種算法的program呢
12/29 23:30, 5F
文章代碼(AID): #1QGnPmIy (CSSE)
文章代碼(AID): #1QGnPmIy (CSSE)