[討論] 如何計算兩個不同欄的相似度?

看板DataScience作者 (我愛豬肉不愛牛肉)時間1周前 (2024/09/07 14:50), 編輯推噓3(305)
留言8則, 5人參與, 5天前最新討論串1/1
各位好,假設我有兩個不同欄目a, b a共有十列關鍵字 b列也有十列,或是九列關鍵字不等。 請問,要怎麼計算a,b兩欄的相似度?有沒有最一般的做法可以建議? 每一欄關鍵字間的順序不重要,不需要被考慮。 萬分感謝! -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 111.65.47.19 (新加坡) ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1725691806.A.F3F.html

09/07 18:53, 1周前 , 1F
apriori?
09/07 18:53, 1F

09/07 21:56, 1周前 , 2F
可以看看這個相似度最後的用途是什麼,再來決定要用什
09/07 21:56, 2F

09/07 21:56, 1周前 , 3F
麼方法算,知道用途也可以有關鍵字拿來 google
09/07 21:56, 3F

09/07 22:04, 1周前 , 4F
Levenshtein Distance 用了一陣子,差強人意..但也找不到更
09/07 22:04, 4F

09/07 22:04, 1周前 , 5F
好的替代方案
09/07 22:04, 5F

09/09 16:06, 1周前 , 6F
Jaccard similarity?
09/09 16:06, 6F

09/11 14:39, 5天前 , 7F
非常感謝各位的資訊 我目前先用一個套件 two-lists simi
09/11 14:39, 7F

09/11 14:40, 5天前 , 8F
liarity 有需要我再試看看各位建議的方法
09/11 14:40, 8F
文章代碼(AID): #1cs_UUy_ (DataScience)
文章代碼(AID): #1cs_UUy_ (DataScience)