[問題] 請問可以用 0/1 數值來做 kmeans嗎?

看板R_Language作者 (123)時間2年前 (2022/08/01 22:08), 2年前編輯推噓3(307)
留言10則, 3人參與, 最新討論串1/1
[問題類型]: 經驗諮詢(我想用R 連接某些資料庫,請問大家的經驗) [軟體熟悉度]: 新手(沒寫過程式,R 是我的第一次) [問題敘述]: 請簡略描述你所要做的事情,或是這個程式的目的 我有一份顧客問卷名單,除了一般常見的性別, 職業, 年齡外 其他是一系列例如: - 你覺得我們產品哪些功能吸引你 (複選6個選項) - 你從哪聽到我們的產品 (複選7個選項) - 你買我們的產品主要目的為何 (單選6個選項) 等等單複選題 我現在想做的是找出我們家產品購買者的分群輪廓 請問我可以將這些問卷選項轉成0與數值後,去跑 kmeans嗎? 例如: - Q1第一個選項有被選填的為1,沒有被選的為0 - Q3第四個選項有被選填的為1,沒有被選的為0 - 性別男生為1,女生為2,其他的為0 不知道我這樣表達得有沒有清楚..?? 謝謝各位 [環境敘述]: R version 4.2.0 (2022-04-22 ucrt) Platform: x86_64-w64-mingw32/x64 (64-bit) Running under: Windows 10 x64 (build 19044) Matrix products: default locale: [1] LC_COLLATE=Chinese (Traditional)_Taiwan.utf8 LC_CTYPE=Chinese (Traditional)_Taiwan.utf8 [3] LC_MONETARY=Chinese (Traditional)_Taiwan.utf8 LC_NUMERIC=C [5] LC_TIME=Chinese (Traditional)_Taiwan.utf8 [關鍵字]: kmeans, 分群 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.37.144.135 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1659362889.A.C8B.html ※ 編輯: iambakr (114.37.144.135 臺灣), 08/01/2022 22:08:42

08/02 03:55, 2年前 , 1F
kmeans works with categorical data
08/02 03:55, 1F

08/02 17:40, 2年前 , 2F
你是指要把k項複選編碼成k個是非題,以及k項單選題編碼
08/02 17:40, 2F

08/02 17:41, 2年前 , 3F
成k題是非題嗎?
08/02 17:41, 3F
回andrew大,我想做的是類似這樣。需要做到這樣 for kmeans嗎? https://bit.ly/3JqBFPc

08/02 21:41, 2年前 , 4F
建議用knodes h大應該是叫你去google
08/02 21:41, 4F
但 kmeans 不是只能用數值型資料嗎? K-medoids才是可以用類別型資料? ※ 編輯: iambakr (114.37.203.24 臺灣), 08/04/2022 01:32:52

08/04 09:53, 2年前 , 5F
看來我沒誤會。如果單純一個複選題這樣做,且所有受訪者
08/04 09:53, 5F

08/04 09:54, 2年前 , 6F
都有乖乖選你要求的項數(此指三項),我直覺這樣做
08/04 09:54, 6F

08/04 09:54, 2年前 , 7F
會是可行的。
08/04 09:54, 7F

08/04 09:55, 2年前 , 8F
但如果是單選題,或是題型多樣,可能要找找其它方法。
08/04 09:55, 8F
請問andrew大,為何單選的話就不推薦這種用法了!? 其實我的題目其實單選跟複選都有.....

08/05 07:50, 2年前 , 9F
kmeans可以處理 binary data,但能避免就避免比較好
08/05 07:50, 9F
請問h大還有哪種分群方式適合我這樣的資料方式呢? 例如: 階層式 ※ 編輯: iambakr (114.37.220.76 臺灣), 08/08/2022 01:08:57

08/08 02:26, , 10F
終究還是因為kmeans不好處理類別資料的距離與中心。
08/08 02:26, 10F
文章代碼(AID): #1Yvzv9oB (R_Language)
文章代碼(AID): #1Yvzv9oB (R_Language)