[問題] kmeans 大數據 版本

看板R_Language作者 (為什麼會流淚)時間9年前 (2016/08/15 15:57), 9年前編輯推噓0(005)
留言5則, 5人參與, 最新討論串1/1
跑kmeans出現以下訊息 Warning message: Quick-TRANSfer stage steps exceeded maximum (= 1318974700) 看起來是 已達最大值 我的data 有2.6千萬筆 想問問看有沒有 大數據的kmeans版本 或是解決方法 或是說這是warning所以不用理他??? 謝謝 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.42.97.210 ※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1471247827.A.EB3.html

08/15 20:34, , 1F
如果會用Spark的話可以用SparkR的kmeans
08/15 20:34, 1F
沒用過 上網查了一下 看起來一樣是R的介面 安裝Library 然後要開指令跟Spark做連結 想問問看主要的差異 特色 功能等等的 版上相關文章也不多 可能要到Spark版上找??

08/15 22:36, , 2F
你沒有多台機器跑spark效益就不大了
08/15 22:36, 2F

08/15 23:56, , 3F
Sampling?
08/15 23:56, 3F
這是什麼?? 目前打算先用一些方法分群 類似手動概念 自己寫code 把data縮小後 再用kmeans套件 ※ 編輯: f496328mm (114.36.53.171), 08/16/2016 13:07:09

08/16 14:31, , 4F
我知道biganalytics有bigkmeans這個function不過我沒用過
08/16 14:31, 4F
謝謝 我研究看看 ※ 編輯: f496328mm (114.36.53.171), 08/16/2016 19:04:13

08/16 22:22, , 5F
pmclust::pkmeans 要多大有多大, 只要機器夠多就行.
08/16 22:22, 5F
文章代碼(AID): #1NiNNJwp (R_Language)
文章代碼(AID): #1NiNNJwp (R_Language)