PTT數位生活區 / DataScience

[問題] 為什麼大數據要取樣?

看板DataScience作者sleepwu ( )時間7年前 (2019/06/27 11:27)推噓3(3推 0噓 26→)

留言29則, 8人參與討論串1/1

小弟文組魯宅，也不是資料科學專業，純疑問請大大們開示小弟的公司每個月會有幾十億筆user行為資料也根據這些行為產出許多模型做分群與預測但做model的同事都是以抽樣的方式建模每次他們在說模型的精準度時不禁心想，大數據的精隨不是在於蒐集了母體資料嗎? 選擇抽樣而不是母體全下去train的原因是什麼? 小弟想到的原因有下： 1.跑母體的時間太久、硬體資源太大但能撐起這樣規模的服務，硬體資源應該足夠? 2.使用的工具無法胃納母體聽過用R、python來跑的，是否工具不足以胃納母體資料? 3.人員受訓方式是否人員一直以來都是受"要建模就先採樣"的訓練，所以習慣採樣? 以上原因是否為真? 還有其他原因嗎? -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 223.26.106.109 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1561606070.A.81F.html

推

06/27 11:34, 7年前 , 1^F

06/27 11:34, 1^F

→

06/27 11:34, 7年前 , 2^F

06/27 11:34, 2^F

→

06/27 11:34, 7年前 , 3^F

06/27 11:34, 3^F

→

06/27 11:43, 7年前 , 4^F

06/27 11:43, 4^F

→

06/27 11:44, 7年前 , 5^F

06/27 11:44, 5^F

推

06/27 12:25, 7年前 , 6^F

06/27 12:25, 6^F

推

06/27 12:25, 7年前 , 7^F

06/27 12:25, 7^F

→

06/27 13:28, 7年前 , 8^F

06/27 13:28, 8^F

→

06/27 13:28, 7年前 , 9^F

06/27 13:28, 9^F

→

06/27 13:28, 7年前 , 10^F

06/27 13:28, 10^F

→

06/27 13:29, 7年前 , 11^F

06/27 13:29, 11^F

→

06/27 14:52, 7年前 , 12^F

06/27 14:52, 12^F

→

06/27 17:13, 7年前 , 13^F

06/27 17:13, 13^F

→

06/27 17:13, 7年前 , 14^F

06/27 17:13, 14^F

→

06/27 17:13, 7年前 , 15^F

06/27 17:13, 15^F

→

06/27 20:07, 7年前 , 16^F

06/27 20:07, 16^F

→

06/27 20:07, 7年前 , 17^F

06/27 20:07, 17^F

→

06/27 20:07, 7年前 , 18^F

06/27 20:07, 18^F

→

06/27 20:09, 7年前 , 19^F

06/27 20:09, 19^F

→

06/27 20:09, 7年前 , 20^F

06/27 20:09, 20^F

→

06/27 20:09, 7年前 , 21^F

06/27 20:09, 21^F

→

06/28 00:10, 7年前 , 22^F

06/28 00:10, 22^F

→

06/28 07:49, 7年前 , 23^F

06/28 07:49, 23^F

→

06/28 07:49, 7年前 , 24^F

06/28 07:49, 24^F

→

06/28 07:49, 7年前 , 25^F

06/28 07:49, 25^F

→

06/28 07:52, 7年前 , 26^F

06/28 07:52, 26^F

→

06/28 07:52, 7年前 , 27^F

06/28 07:52, 27^F

→

06/28 10:45, 7年前 , 28^F

06/28 10:45, 28^F

→

07/21 20:24, 7年前 , 29^F

07/21 20:24, 29^F

‣ 返回看板[ DataScience ] 研討

‣ 更多 sleepwu 的文章

文章代碼(AID): #1T53UsWV (DataScience)

DataScience 近期熱門文章

3

17

[討論] 請問有真正把AI運用到工作、投資、或賺

[ DataScience ]

7月前, 11/26

6

17

[討論] 各位會買相關書籍來看嗎?

[ DataScience ]

8月前, 10/31

3

10

[問題] 請問想看CV相關討論適合去何處

[ DataScience ]

9月前, 10/17

2

6

[問題] 文字探勘的特徵選取問題

[ DataScience ]

1年前, 07/01

1

9

[問題] 請問kaggle有商業方案嗎? 它每週gpu的限

[ DataScience ]

1年前, 02/26

4

4

[徵才] 美國Amazon暑期實習生

[ DataScience ]

1年前, 01/23

1

6

[問題] 請教大家有推薦的GPU租用服務嗎?

[ DataScience ]

1年前, 12/20

3

8

[討論] 如何計算兩個不同欄的相似度？

[ DataScience ]

1年前, 09/07

更多近期熱門文章 >>

PTT數位生活區即時熱門文章

2

24

[菜單] 35k遊戲機

[ PC_Shopping ]

5小時前, 07/22

2

9

[請益] 威剛雙通道送修

[ PC_Shopping ]

9小時前, 07/22

66

113

[Live] Samsung Galaxy Unpacked July 2026

9小時前, 07/22

20

45

[賣/全國/皆可] 金士頓FURYM21TBSSD SFYRS/1000G

[ HardwareSale ]

10小時前, 07/22

5

5

[賣/台中/面交] ddr4-16g/8g/3060ti/12400F

[ HardwareSale ]

11小時前, 07/22

8

13

[開箱] 保銳REVOLUTION III性價比金靜冰核白化版

[ PC_Shopping ]

11小時前, 07/22

10

49

[心得] Android自動轉寄簡訊驗證碼到Email

11小時前, 07/22

2

10

[問題] S24 Ultra yotube無法懸浮

13小時前, 07/22

更多即時熱門文章 >>

‣ 返回看板[ DataScience ] 研討

‣ 更多 sleepwu 的文章

文章代碼(AID): #1T53UsWV (DataScience)