[分享] Lots of data != Big Data

看板R_Language作者 (拒看低質媒體)時間11年前 (2013/03/31 16:56), 編輯推噓0(000)
留言0則, 0人參與, 最新討論串1/1
關鍵字: R, Big Data 出處: http://blog.revolutionanalytics.com/2013/03/lots-of-data-big-data.html 重點節錄 - 不好的模型,無論資料多或少,都一樣不好。Example: [2009 ASA challenge](http://stat-computing.org/dataexpo/2009/). - 利用抽樣,可以更快的知道資料模型配適的結果。當樣本數足夠多的時候,得到的模型 會差不多。 ![](http://revolution-computing.typepad.com/.a/6a010534b1db25970b017ee9c43f87970d-800wi) - 如果你還在尋找適合的模型,那用樣本資料可以加速你的研究速度。用全部的資料,只 會浪費你的時間。 - 可以利用Revolustion Analytics 的 [RevoScaleR](http://www.revolutionanalytics.com/products/enterprise-big-data.php) 套件 - 全部的資料會被轉換成.xdf binary - RevoScaleR會利用rxDataStep函數來抽樣本 - 抽樣的能力,是決定你能否在時間和精準度之間取得平衡的關鍵。 -- 歡迎加入 Taiwan R User Group : http://www.facebook.com/Tw.R.User 我們每週一都有在「政大公企中心(台北市金華街187號)西樓WB05」 舉辦Machine Learning / Data Mining Monday: 報名 http://www.meetup.com/Taiwan-R/ 聚會影片 https://www.youtube.com/user/TWuseRGroup -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 118.166.89.168
文章代碼(AID): #1HL_fEpb (R_Language)
文章代碼(AID): #1HL_fEpb (R_Language)