Re: [問題] 統計與資工在資料科學的差異
也許我跟前一篇神人有共同神人朋友 小弟我是純統計人
大學碩士博士 都是念統計 博士畢業後在一家研究機構擔任
Research Scientist - Data Science
工作快滿四年 雖然只有在一間公司 但可以稍微分享我公司的情況
首先 不只我的背景是純統計 我的研究領域是實驗設計 電腦實驗
可以說離ML DL 非常遙遠 因為在我的世界裡 樣本數超過50個都要偷笑
說個題外話 之前幫一家做大型電器的公司做分析 42個樣本花了1 million (美金)
只是想先對統計人說 在資料科學的世界 不是單純的只有大數據
上班後 我選擇了走向比較偏ML DL的路 目前主要是在做NLP相關的案子
統計人學習ML 其實是不難的 因為大部分的ML 其實在統計的課程裡都有提過
也許著重的方向不一樣 我知道現在沒人在管殘差 normality test等等
如果單純的只是要 找尋適當地ML DL方法 來分析資料
有統計的背景 很快就可以抓到這些方法的精髓
你會說 資工 CS的人這些也都會啊 那統計的人優勢在哪裡
我認為是資料分析上對數字的敏感度 以及找出影響的因子
我的部門裡面大概是5個統計博士 1個應數博士 3個EE or CSE博士 一堆統計CS碩士
統計人通常比較能夠回答 為什麼會這樣 或者當預設的方法行不通的時候
統計人比較能夠想到其他做法 而不是ML 每一個方法是試一遍 用Precision/Recall/F1
來決定使用哪個模型
還記得一個小案子 一個別的部門的主管跟Texas A&M的博士生合作 用LSTM分析一組
Time series 的資料 預測結果非常糟糕 但他們找不出原因
因為LSTM基本上算DL裡面對Time series default 的方法了
那他們做了 LSTM不行 就試試RNN 再試ANN
但其實我只做了一件小事情就解決了問題 畫圖
統計老師最常說的一句話 拿到資料先畫圖 而不是先把資料丟進模型
結論是 哪組資料有四個outputs 有兩個跟另外兩個根本完全不一樣
那是一組石油的資料 灌水進去洞裡面 希望最多石油噴出來
其實有兩個production wells 最後被判定是有問題的
garbage in garbage out
另外 最後老闆跟Texam A&M最喜歡的模型是 Linear model with constraints
因為加了constrints的模型 可以符合其物理意義 而這是LSTM, RNN, ANN做不到的
ML DL的方法真的很厲害 我現在每天都在用BERT, XLNet等models
我都覺得 這些models出來一定讓很多人失業
我們公司之前NLP model 都是請一家專門的公司做的
一年要付他們$16,000 license fee
但在BERT出來後 三個月我們自己做的 就outperform 他們的NLP models
用一樣的training data 更何況我們team 還沒有人是有NLP背景的
當然 以現在工作上需要的東西來看 過去的統計訓練
我認為在 data base 跟 data structure 的方法 是真的比較欠缺的
但在中大型的公司 可能也不是問題
我們公司每個案子 基本上都是 統計跟CS的人配合 (在我們公司都叫DS)
他們負責抓資料 建立Web-service 而我們負責模型的部分
然後都被抱怨寫的code style 不對
而我們都抱怨他們 被他們改過 超難debug
結論 很多人認為資工比較好 統計也不差的 給統計人一點信心
只能說 資料科學家 這個名詞其實包含的很多種不同的工作型態
不同領域的人 在不同的行業會有其優勢
而我認為 要在資料科學家這領域生存
最重要的是不斷的學習 跟上模型進步的腳步
小小心得分享
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 98.31.7.190 (美國)
※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1592107034.A.B25.html
※ 編輯: allen1985 (98.31.7.190 美國), 06/14/2020 12:00:33
推
06/14 12:34,
4年前
, 1F
06/14 12:34, 1F
推
06/14 13:38,
4年前
, 2F
06/14 13:38, 2F
→
06/14 13:38,
4年前
, 3F
06/14 13:38, 3F
推
06/14 13:47,
4年前
, 4F
06/14 13:47, 4F
推 ar851060: 推,但怎麼感覺進DS的話,統計人都要到博士?
06/14 14:14
其實 我自己也常在想這個問題 因為原本的生涯規劃是要走學術界 一定得念博士
所以一路走來也沒想太多 大學畢業考碩士班 碩士畢業當兵 中研院研究助理
出國博士班
上班以後反而常在想 如果當初我就想走業界 是不是不需要浪費五年拿博士
五年可以賺很多錢的
只能分享在我公司看到的情況
對碩士進來的要求就是 在一個team裡面 主要做dirty work的人
所以8成的時間 可能都在R/Python
對博士進來的要求也是做dirty work 大概6成的時間也都在R/Python/SAS/Matlab
但對博士會要求 要有想法
業界不需要你從理論發展出一個新發法 但需要很快地找出哪個方法可能可以用
而且有東西讓你用 絕對不可能有budget 像博士班一樣 看到一篇paper
花幾個月的時間去implement it
另外就是常常在把A, B, C 方法結合起來 變成一個新的方法
你說 這要求 碩士畢業做不到嗎 其實很多人是可以的
差別就在於 有沒有那個機會 以及有沒有那個習慣
機會是說 PM可能有問題時 會習慣的問博士level的人
所以 機會是要給準備好的人 不管什麼學歷 只要你能一直在開會的時候
一直提出有用的建議 很快你就會進入決策中心 而不是只是單純寫程式的人
那博士班的好處呢
我個人覺得 博士班對於獨立研究的訓練 還是要有其幫助的
尤其遇到傳統方法結果不好的時候
博士level的 通常比較能快速地找出解決方案
大家都知道 資料分析 最不花時間的就是 套用package算出答案
想方法 整理資料 遠比最後一塊算答案的難
在美國大部分統計碩士 是不寫論文的
所以相對來說 只有碩士畢業的人 通常沒經歷過 paper的摧殘
以及如何在幾分鐘內就把paper丟掉 就算title再怎麼像是完美地符合你的需要
不用浪費時間去了解用不到的方法
推
06/14 16:57,
4年前
, 5F
06/14 16:57, 5F
推
06/14 17:49,
4年前
, 6F
06/14 17:49, 6F
推
06/14 20:48,
4年前
, 7F
06/14 20:48, 7F
※ 編輯: allen1985 (98.31.7.190 美國), 06/14/2020 22:02:15
推
06/14 22:31,
4年前
, 8F
06/14 22:31, 8F
推
06/15 00:43,
4年前
, 9F
06/15 00:43, 9F
推
06/15 01:06,
4年前
, 10F
06/15 01:06, 10F
推
06/15 03:46,
4年前
, 11F
06/15 03:46, 11F
推
06/15 11:38,
4年前
, 12F
06/15 11:38, 12F
不敢說不可能 但感覺機會不大 transfer learning 也要先有資料train一個模型啊
後來我們的做法是 因為這個實驗是有simulator的
雖然客戶也不相信simulator的準確率 但經過一些比較 認為simulator 還是有其效果
最後是用Bayesian Calibration Model 來利用真實物理實驗 來校正simulator
而用校正後的模型 來做預測 並找出最佳解
這模型是based on Gaussian process 可能做空間統計 或者電腦實驗的人才會聽過
※ 編輯: allen1985 (98.31.7.190 美國), 06/15/2020 11:55:07
推
06/15 14:40,
4年前
, 13F
06/15 14:40, 13F
推
06/15 16:14,
4年前
, 14F
06/15 16:14, 14F
→
06/15 16:14,
4年前
, 15F
06/15 16:14, 15F
推
06/15 17:24,
4年前
, 16F
06/15 17:24, 16F
推
06/15 22:32,
4年前
, 17F
06/15 22:32, 17F
→
06/15 22:32,
4年前
, 18F
06/15 22:32, 18F
沒這麼複雜喔 簡單地一個概念 灌多少水進去injection wells 理論上就有多少水
從production wells 出來 在這實驗裡 有五個injection wells 四個production wells
我們把迴歸的coefficients 想像成每一個injection well 會貢獻到每一個
production well的比例 所以constraints 是 sum of coefficients for each
injection well = 1 每個coefficients 是0-1的值
至於怎麼fit這樣的迴歸模型 想想了喔!
※ 編輯: allen1985 (98.31.7.190 美國), 06/15/2020 23:12:27
※ 編輯: allen1985 (98.31.7.190 美國), 06/15/2020 23:23:41
推
06/16 00:44,
4年前
, 19F
06/16 00:44, 19F
推
06/16 07:58,
4年前
, 20F
06/16 07:58, 20F
推
06/16 09:57,
4年前
, 21F
06/16 09:57, 21F
推
06/16 14:17,
4年前
, 22F
06/16 14:17, 22F
推
06/16 18:49,
4年前
, 23F
06/16 18:49, 23F
推
06/16 19:06,
4年前
, 24F
06/16 19:06, 24F
推
06/18 19:46,
4年前
, 25F
06/18 19:46, 25F
推
06/22 20:25,
4年前
, 26F
06/22 20:25, 26F
→
06/25 17:54,
4年前
, 27F
06/25 17:54, 27F
推
06/25 20:19,
4年前
, 28F
06/25 20:19, 28F
推
06/26 12:54,
4年前
, 29F
06/26 12:54, 29F
推
07/01 00:58,
4年前
, 30F
07/01 00:58, 30F
推
07/09 17:52,
4年前
, 31F
07/09 17:52, 31F
討論串 (同標題文章)
DataScience 近期熱門文章
PTT數位生活區 即時熱門文章