[分享] Lots of data != Big Data
關鍵字: R, Big Data
出處: http://blog.revolutionanalytics.com/2013/03/lots-of-data-big-data.html
重點節錄
- 不好的模型,無論資料多或少,都一樣不好。Example: [2009 ASA
challenge](http://stat-computing.org/dataexpo/2009/).
- 利用抽樣,可以更快的知道資料模型配適的結果。當樣本數足夠多的時候,得到的模型
會差不多。
![](http://revolution-computing.typepad.com/.a/6a010534b1db25970b017ee9c43f87970d-800wi)
- 如果你還在尋找適合的模型,那用樣本資料可以加速你的研究速度。用全部的資料,只
會浪費你的時間。
- 可以利用Revolustion Analytics 的
[RevoScaleR](http://www.revolutionanalytics.com/products/enterprise-big-data.php)
套件
- 全部的資料會被轉換成.xdf binary
- RevoScaleR會利用rxDataStep函數來抽樣本
- 抽樣的能力,是決定你能否在時間和精準度之間取得平衡的關鍵。
--
歡迎加入 Taiwan R User Group : http://www.facebook.com/Tw.R.User
我們每週一都有在「政大公企中心(台北市金華街187號)西樓WB05」
舉辦Machine Learning / Data Mining Monday:
報名 http://www.meetup.com/Taiwan-R/
聚會影片 https://www.youtube.com/user/TWuseRGroup
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 118.166.89.168
R_Language 近期熱門文章
PTT數位生活區 即時熱門文章