Re: [問題] 統計與資工在資料科學的差異

看板DataScience作者 (我要低調 拯救形象)時間4年前 (2020/06/14 11:57), 4年前編輯推噓27(2704)
留言31則, 27人參與, 4年前最新討論串5/5 (看更多)
也許我跟前一篇神人有共同神人朋友 小弟我是純統計人 大學碩士博士 都是念統計 博士畢業後在一家研究機構擔任 Research Scientist - Data Science 工作快滿四年 雖然只有在一間公司 但可以稍微分享我公司的情況 首先 不只我的背景是純統計 我的研究領域是實驗設計 電腦實驗 可以說離ML DL 非常遙遠 因為在我的世界裡 樣本數超過50個都要偷笑 說個題外話 之前幫一家做大型電器的公司做分析 42個樣本花了1 million (美金) 只是想先對統計人說 在資料科學的世界 不是單純的只有大數據 上班後 我選擇了走向比較偏ML DL的路 目前主要是在做NLP相關的案子 統計人學習ML 其實是不難的 因為大部分的ML 其實在統計的課程裡都有提過 也許著重的方向不一樣 我知道現在沒人在管殘差 normality test等等 如果單純的只是要 找尋適當地ML DL方法 來分析資料 有統計的背景 很快就可以抓到這些方法的精髓 你會說 資工 CS的人這些也都會啊 那統計的人優勢在哪裡 我認為是資料分析上對數字的敏感度 以及找出影響的因子 我的部門裡面大概是5個統計博士 1個應數博士 3個EE or CSE博士 一堆統計CS碩士 統計人通常比較能夠回答 為什麼會這樣 或者當預設的方法行不通的時候 統計人比較能夠想到其他做法 而不是ML 每一個方法是試一遍 用Precision/Recall/F1 來決定使用哪個模型 還記得一個小案子 一個別的部門的主管跟Texas A&M的博士生合作 用LSTM分析一組 Time series 的資料 預測結果非常糟糕 但他們找不出原因 因為LSTM基本上算DL裡面對Time series default 的方法了 那他們做了 LSTM不行 就試試RNN 再試ANN 但其實我只做了一件小事情就解決了問題 畫圖 統計老師最常說的一句話 拿到資料先畫圖 而不是先把資料丟進模型 結論是 哪組資料有四個outputs 有兩個跟另外兩個根本完全不一樣 那是一組石油的資料 灌水進去洞裡面 希望最多石油噴出來 其實有兩個production wells 最後被判定是有問題的 garbage in garbage out 另外 最後老闆跟Texam A&M最喜歡的模型是 Linear model with constraints 因為加了constrints的模型 可以符合其物理意義 而這是LSTM, RNN, ANN做不到的 ML DL的方法真的很厲害 我現在每天都在用BERT, XLNet等models 我都覺得 這些models出來一定讓很多人失業 我們公司之前NLP model 都是請一家專門的公司做的 一年要付他們$16,000 license fee 但在BERT出來後 三個月我們自己做的 就outperform 他們的NLP models 用一樣的training data 更何況我們team 還沒有人是有NLP背景的 當然 以現在工作上需要的東西來看 過去的統計訓練 我認為在 data base 跟 data structure 的方法 是真的比較欠缺的 但在中大型的公司 可能也不是問題 我們公司每個案子 基本上都是 統計跟CS的人配合 (在我們公司都叫DS) 他們負責抓資料 建立Web-service 而我們負責模型的部分 然後都被抱怨寫的code style 不對 而我們都抱怨他們 被他們改過 超難debug 結論 很多人認為資工比較好 統計也不差的 給統計人一點信心 只能說 資料科學家 這個名詞其實包含的很多種不同的工作型態 不同領域的人 在不同的行業會有其優勢 而我認為 要在資料科學家這領域生存 最重要的是不斷的學習 跟上模型進步的腳步 小小心得分享 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 98.31.7.190 (美國) ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1592107034.A.B25.html ※ 編輯: allen1985 (98.31.7.190 美國), 06/14/2020 12:00:33

06/14 12:34, 4年前 , 1F
推!
06/14 12:34, 1F

06/14 13:38, 4年前 , 2F
現在我也都直接拿pre train的來用
06/14 13:38, 2F

06/14 13:38, 4年前 , 3F
方便太多了..
06/14 13:38, 3F

06/14 13:47, 4年前 , 4F
推~
06/14 13:47, 4F
ar851060: 推,但怎麼感覺進DS的話,統計人都要到博士? 06/14 14:14 其實 我自己也常在想這個問題 因為原本的生涯規劃是要走學術界 一定得念博士 所以一路走來也沒想太多 大學畢業考碩士班 碩士畢業當兵 中研院研究助理 出國博士班 上班以後反而常在想 如果當初我就想走業界 是不是不需要浪費五年拿博士 五年可以賺很多錢的 只能分享在我公司看到的情況 對碩士進來的要求就是 在一個team裡面 主要做dirty work的人 所以8成的時間 可能都在R/Python 對博士進來的要求也是做dirty work 大概6成的時間也都在R/Python/SAS/Matlab 但對博士會要求 要有想法 業界不需要你從理論發展出一個新發法 但需要很快地找出哪個方法可能可以用 而且有東西讓你用 絕對不可能有budget 像博士班一樣 看到一篇paper 花幾個月的時間去implement it 另外就是常常在把A, B, C 方法結合起來 變成一個新的方法 你說 這要求 碩士畢業做不到嗎 其實很多人是可以的 差別就在於 有沒有那個機會 以及有沒有那個習慣 機會是說 PM可能有問題時 會習慣的問博士level的人 所以 機會是要給準備好的人 不管什麼學歷 只要你能一直在開會的時候 一直提出有用的建議 很快你就會進入決策中心 而不是只是單純寫程式的人 那博士班的好處呢 我個人覺得 博士班對於獨立研究的訓練 還是要有其幫助的 尤其遇到傳統方法結果不好的時候 博士level的 通常比較能快速地找出解決方案 大家都知道 資料分析 最不花時間的就是 套用package算出答案 想方法 整理資料 遠比最後一塊算答案的難 在美國大部分統計碩士 是不寫論文的 所以相對來說 只有碩士畢業的人 通常沒經歷過 paper的摧殘 以及如何在幾分鐘內就把paper丟掉 就算title再怎麼像是完美地符合你的需要 不用浪費時間去了解用不到的方法

06/14 16:57, 4年前 , 5F
推推,好文!
06/14 16:57, 5F

06/14 17:49, 4年前 , 6F
06/14 17:49, 6F

06/14 20:48, 4年前 , 7F
06/14 20:48, 7F
※ 編輯: allen1985 (98.31.7.190 美國), 06/14/2020 22:02:15

06/14 22:31, 4年前 , 8F
06/14 22:31, 8F

06/15 00:43, 4年前 , 9F
推推
06/15 00:43, 9F

06/15 01:06, 4年前 , 10F
06/15 01:06, 10F

06/15 03:46, 4年前 , 11F
06/15 03:46, 11F

06/15 11:38, 4年前 , 12F
推推 好奇問1M的case可以改用transfer learning嗎?
06/15 11:38, 12F
不敢說不可能 但感覺機會不大 transfer learning 也要先有資料train一個模型啊 後來我們的做法是 因為這個實驗是有simulator的 雖然客戶也不相信simulator的準確率 但經過一些比較 認為simulator 還是有其效果 最後是用Bayesian Calibration Model 來利用真實物理實驗 來校正simulator 而用校正後的模型 來做預測 並找出最佳解 這模型是based on Gaussian process 可能做空間統計 或者電腦實驗的人才會聽過 ※ 編輯: allen1985 (98.31.7.190 美國), 06/15/2020 11:55:07

06/15 14:40, 4年前 , 13F
推推
06/15 14:40, 13F

06/15 16:14, 4年前 , 14F
也是 是偶耍蠢惹lol 用GP至少知道每個點都被utilize
06/15 16:14, 14F

06/15 16:14, 4年前 , 15F
w/o bias 不像transfer learning還得有個前置問題
06/15 16:14, 15F

06/15 17:24, 4年前 , 16F
推推
06/15 17:24, 16F

06/15 22:32, 4年前 , 17F
推 請問linear model w/ constraints 是ridge LASSO E
06/15 22:32, 17F

06/15 22:32, 4年前 , 18F
lastic net 這樣的regularized model嗎?
06/15 22:32, 18F
沒這麼複雜喔 簡單地一個概念 灌多少水進去injection wells 理論上就有多少水 從production wells 出來 在這實驗裡 有五個injection wells 四個production wells 我們把迴歸的coefficients 想像成每一個injection well 會貢獻到每一個 production well的比例 所以constraints 是 sum of coefficients for each injection well = 1 每個coefficients 是0-1的值 至於怎麼fit這樣的迴歸模型 想想了喔! ※ 編輯: allen1985 (98.31.7.190 美國), 06/15/2020 23:12:27 ※ 編輯: allen1985 (98.31.7.190 美國), 06/15/2020 23:23:41

06/16 00:44, 4年前 , 19F
06/16 00:44, 19F

06/16 07:58, 4年前 , 20F
獲益良多,推好文
06/16 07:58, 20F

06/16 09:57, 4年前 , 21F
06/16 09:57, 21F

06/16 14:17, 4年前 , 22F
推好文
06/16 14:17, 22F

06/16 18:49, 4年前 , 23F
06/16 18:49, 23F

06/16 19:06, 4年前 , 24F
好文 推
06/16 19:06, 24F

06/18 19:46, 4年前 , 25F
06/18 19:46, 25F

06/22 20:25, 4年前 , 26F
好文
06/22 20:25, 26F

06/25 17:54, 4年前 , 27F
感謝分享!
06/25 17:54, 27F

06/25 20:19, 4年前 , 28F
06/25 20:19, 28F

06/26 12:54, 4年前 , 29F
06/26 12:54, 29F

07/01 00:58, 4年前 , 30F
好猛
07/01 00:58, 30F

07/09 17:52, 4年前 , 31F
07/09 17:52, 31F
文章代碼(AID): #1UvQ0Qib (DataScience)
文章代碼(AID): #1UvQ0Qib (DataScience)