[問題] 如何對categories data 做 clustering?
資料舉例:
用戶可以使用的顏色有五種
white, black, orange, red, blue
one hot encoding後
用戶A  0,0,1,1,0
用戶B  1,0,0,0,1
用戶C  0,1,0,0,0
用戶D  1,0,1,1,0
……etc
備註: 實際上有800多個顏色與幾萬個用戶
目的
1. 想要知道哪些顏色組合性質接近
2. 可視化(希望有word vector的效果)
查了幾個關鍵字還是不太清楚做法
k-means似乎都是對連續值的類聚(好像可以不要用歐幾里得距離, 但也不知道該換什麼)
或可以直接對unary data PCA降維嗎? sci-kit learn, matlibplot畫出來怪怪的。
-----
Sent from JPTT on my Samsung SM-A530F.
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 42.77.73.216
※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1535888850.A.D6B.html
→
09/02 22:01, 
                                7年前
                            , 1F
09/02 22:01, 1F
→
09/02 22:01, 
                                7年前
                            , 2F
09/02 22:01, 2F
推
09/03 00:02, 
                                7年前
                            , 3F
09/03 00:02, 3F
→
09/03 00:07, 
                                7年前
                            , 4F
09/03 00:07, 4F
→
09/03 00:07, 
                                7年前
                            , 5F
09/03 00:07, 5F
→
09/03 04:17, 
                                7年前
                            , 6F
09/03 04:17, 6F
推
09/03 11:06, 
                                7年前
                            , 7F
09/03 11:06, 7F
→
09/03 11:06, 
                                7年前
                            , 8F
09/03 11:06, 8F
推
09/03 13:38, 
                                7年前
                            , 9F
09/03 13:38, 9F
→
09/03 14:48, 
                                7年前
                            , 10F
09/03 14:48, 10F
推
09/04 01:38, 
                                7年前
                            , 11F
09/04 01:38, 11F
推
09/04 01:56, 
                                7年前
                            , 12F
09/04 01:56, 12F
DataScience 近期熱門文章
PTT數位生活區 即時熱門文章