[問題] 如何對categories data 做 clustering?
資料舉例:
用戶可以使用的顏色有五種
white, black, orange, red, blue
one hot encoding後
用戶A 0,0,1,1,0
用戶B 1,0,0,0,1
用戶C 0,1,0,0,0
用戶D 1,0,1,1,0
……etc
備註: 實際上有800多個顏色與幾萬個用戶
目的
1. 想要知道哪些顏色組合性質接近
2. 可視化(希望有word vector的效果)
查了幾個關鍵字還是不太清楚做法
k-means似乎都是對連續值的類聚(好像可以不要用歐幾里得距離, 但也不知道該換什麼)
或可以直接對unary data PCA降維嗎? sci-kit learn, matlibplot畫出來怪怪的。
-----
Sent from JPTT on my Samsung SM-A530F.
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 42.77.73.216
※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1535888850.A.D6B.html
→
09/02 22:01,
6年前
, 1F
09/02 22:01, 1F
→
09/02 22:01,
6年前
, 2F
09/02 22:01, 2F
推
09/03 00:02,
6年前
, 3F
09/03 00:02, 3F
→
09/03 00:07,
6年前
, 4F
09/03 00:07, 4F
→
09/03 00:07,
6年前
, 5F
09/03 00:07, 5F
→
09/03 04:17,
6年前
, 6F
09/03 04:17, 6F
推
09/03 11:06,
6年前
, 7F
09/03 11:06, 7F
→
09/03 11:06,
6年前
, 8F
09/03 11:06, 8F
推
09/03 13:38,
6年前
, 9F
09/03 13:38, 9F
→
09/03 14:48,
6年前
, 10F
09/03 14:48, 10F
推
09/04 01:38,
6年前
, 11F
09/04 01:38, 11F
推
09/04 01:56,
6年前
, 12F
09/04 01:56, 12F
DataScience 近期熱門文章
PTT數位生活區 即時熱門文章
0
18