[問題] 為什麼大數據要取樣?
小弟文組魯宅,也不是資料科學專業,純疑問請大大們開示
小弟的公司每個月會有幾十億筆user行為資料
也根據這些行為產出許多模型做分群與預測
但做model的同事都是以抽樣的方式建模
每次他們在說模型的精準度時不禁心想,大數據的精隨不是在於蒐集了母體資料嗎?
選擇抽樣而不是母體全下去train的原因是什麼?
小弟想到的原因有下:
1.跑母體的時間太久、硬體資源太大
但能撐起這樣規模的服務,硬體資源應該足夠?
2.使用的工具無法胃納母體
聽過用R、python來跑的,是否工具不足以胃納母體資料?
3.人員受訓方式
是否人員一直以來都是受"要建模就先採樣"的訓練,所以習慣採樣?
以上原因是否為真? 還有其他原因嗎?
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 223.26.106.109 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1561606070.A.81F.html
推
06/27 11:34,
5年前
, 1F
06/27 11:34, 1F
→
06/27 11:34,
5年前
, 2F
06/27 11:34, 2F
→
06/27 11:34,
5年前
, 3F
06/27 11:34, 3F
→
06/27 11:43,
5年前
, 4F
06/27 11:43, 4F
→
06/27 11:44,
5年前
, 5F
06/27 11:44, 5F
推
06/27 12:25,
5年前
, 6F
06/27 12:25, 6F
推
06/27 12:25,
5年前
, 7F
06/27 12:25, 7F
→
06/27 13:28,
5年前
, 8F
06/27 13:28, 8F
→
06/27 13:28,
5年前
, 9F
06/27 13:28, 9F
→
06/27 13:28,
5年前
, 10F
06/27 13:28, 10F
→
06/27 13:29,
5年前
, 11F
06/27 13:29, 11F
→
06/27 14:52,
5年前
, 12F
06/27 14:52, 12F
→
06/27 17:13,
5年前
, 13F
06/27 17:13, 13F
→
06/27 17:13,
5年前
, 14F
06/27 17:13, 14F
→
06/27 17:13,
5年前
, 15F
06/27 17:13, 15F
→
06/27 20:07,
5年前
, 16F
06/27 20:07, 16F
→
06/27 20:07,
5年前
, 17F
06/27 20:07, 17F
→
06/27 20:07,
5年前
, 18F
06/27 20:07, 18F
→
06/27 20:09,
5年前
, 19F
06/27 20:09, 19F
→
06/27 20:09,
5年前
, 20F
06/27 20:09, 20F
→
06/27 20:09,
5年前
, 21F
06/27 20:09, 21F
→
06/28 00:10,
5年前
, 22F
06/28 00:10, 22F
→
06/28 07:49,
5年前
, 23F
06/28 07:49, 23F
→
06/28 07:49,
5年前
, 24F
06/28 07:49, 24F
→
06/28 07:49,
5年前
, 25F
06/28 07:49, 25F
→
06/28 07:52,
5年前
, 26F
06/28 07:52, 26F
→
06/28 07:52,
5年前
, 27F
06/28 07:52, 27F
→
06/28 10:45,
5年前
, 28F
06/28 10:45, 28F
→
07/21 20:24,
5年前
, 29F
07/21 20:24, 29F
DataScience 近期熱門文章
PTT數位生活區 即時熱門文章