[問題] 如何對categories data 做 clustering?

看板DataScience作者 (simple)時間6年前 (2018/09/02 19:47), 編輯推噓5(507)
留言12則, 8人參與, 6年前最新討論串1/1
資料舉例: 用戶可以使用的顏色有五種 white, black, orange, red, blue one hot encoding後 用戶A 0,0,1,1,0 用戶B 1,0,0,0,1 用戶C 0,1,0,0,0 用戶D 1,0,1,1,0 ……etc 備註: 實際上有800多個顏色與幾萬個用戶 目的 1. 想要知道哪些顏色組合性質接近 2. 可視化(希望有word vector的效果) 查了幾個關鍵字還是不太清楚做法 k-means似乎都是對連續值的類聚(好像可以不要用歐幾里得距離, 但也不知道該換什麼) 或可以直接對unary data PCA降維嗎? sci-kit learn, matlibplot畫出來怪怪的。 ----- Sent from JPTT on my Samsung SM-A530F. -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 42.77.73.216 ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1535888850.A.D6B.html

09/02 22:01, 6年前 , 1F
onehot只有一個是1, 照你敘述維度就是800多吧, 怕黏在一起
09/02 22:01, 1F

09/02 22:01, 6年前 , 2F
可以試t-SNE
09/02 22:01, 2F

09/03 00:02, 6年前 , 3F
Hamming distance
09/03 00:02, 3F

09/03 00:07, 6年前 , 4F
不過binary data用Bernoulli Mixture model可能比較好
09/03 00:07, 4F

09/03 00:07, 6年前 , 5F
k-means需要算center, 對binary data的確怪怪的
09/03 00:07, 5F

09/03 04:17, 6年前 , 6F
幾萬個用戶 用tsne會運算頗久
09/03 04:17, 6F

09/03 11:06, 6年前 , 7F
也許可以試試把顏色當成詞袋,用類似 topic modeling 的
09/03 11:06, 7F

09/03 11:06, 6年前 , 8F
方法來做 clustering?
09/03 11:06, 8F

09/03 13:38, 6年前 , 9F
用support vector clustering呢?
09/03 13:38, 9F

09/03 14:48, 6年前 , 10F
謝謝關鍵字提供! 我來研究看看
09/03 14:48, 10F

09/04 01:38, 6年前 , 11F
Shannon's diversity index
09/04 01:38, 11F

09/04 01:56, 6年前 , 12F
t-SNE
09/04 01:56, 12F
文章代碼(AID): #1RYytIrh (DataScience)
文章代碼(AID): #1RYytIrh (DataScience)