[問題] 如何對有多種尺度屬性的資料分群?

看板DataScience作者 (123)時間6年前 (2018/10/24 18:16), 6年前編輯推噓3(302)
留言5則, 4人參與, 6年前最新討論串1/1
大家好,最近在讀有關分群的章節 但是書上對於分群演算法總是只考慮數值變數 但是常常資料時有很多種尺度的 例如我可能有一筆資料記錄著一些人的訊息 可能有他的年紀,身高,體重,有沒有房子,開什麼車,種族,收入,任職的公司 等等變數 有沒有什麼好方法可以衡量兩筆資料之間的相似或相異度?一般來說是如何對這種資料做分群的呢? ----- Sent from JPTT on my Sony D6653. -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 223.138.56.115 ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1540376173.A.A05.html

10/24 19:37, 6年前 , 1F
多尺度是指多維ㄇ
10/24 19:37, 1F
不是耶 像是例如年紀是interval尺度 開什麼車是nominal尺度之類的

10/24 19:58, 6年前 , 2F
t-SNE或是Gower’s distance
10/24 19:58, 2F
感謝,剛剛有查到Gower跟k-prototype,t-SNE會去看看 ※ 編輯: jimmy12332 (223.138.56.115), 10/24/2018 20:56:17 ※ 編輯: jimmy12332 (223.138.56.115), 10/24/2018 20:58:20

10/25 01:42, 6年前 , 3F
如果是k means分群,是需要做scaling的
10/25 01:42, 3F

10/25 01:42, 6年前 , 4F
可以看此問答 https://bit.ly/2Je8Qq9
10/25 01:42, 4F

10/25 11:01, 6年前 , 5F
直接做 z score ?
10/25 11:01, 5F
文章代碼(AID): #1Rq4Pje5 (DataScience)
文章代碼(AID): #1Rq4Pje5 (DataScience)