Re: [問題] 統計與資工在資料科學的差異

看板DataScience作者 (Yang)時間4年前 (2020/06/05 13:32), 4年前編輯推噓12(12024)
留言36則, 12人參與, 4年前最新討論串3/5 (看更多)
※ 引述《ctr1 (【積π】)》之銘言: : 想請問版上的先進 : 在資料科學 機器學習 深度學習這領域上 : 統計系所 資工系所 : 差異性在哪裡呢 : 感謝各位了 看到有人這樣問,就讓我勾起以前一樣的疑惑,到底統研所和資工所的ML有何差別 目前已上過統研所的ML(統研所叫統計學習或者和計算統計重疊)和正在上資工所的ML。 雖然還是才疏學淺,但還是提供目前小小觀點,如果有錯,請大神指正。 至於深度學習,我目前也只是碰一點點NN,僅此而已。所以無法提供觀點比較。 統研所的統計學習和計算統計,基本上教科書就是ESL 先講統計學習: 從統計觀點出發,以Linear Regression開始,你讀到後面會發現很多模型假設都是有線性迴歸的影子在。 參數到非參數(Splines應該就算是最主要的詮釋,你會發現有線性迴歸的fu) 但是,我在學的過程中,很困惑,為何學一堆方法,然後就直接用R跑,That's it! 老師上課證明證明證到大家睡著,還記得他證Back Propogation讓我大吃一驚,怎會有人想出這演算法。 但是呢,我就曾經問過老師,我手上有一筆資料,那我要如何評斷我的model,難不成只能說這方法預測效果比較好。 還記得老師那時候說:I never know. 事後我覺得也對,每個資料有每個資料的屬性,哪些資料用哪些方法效果比較好,可能就是那些內行人的秘方 至於什麼trees, random forest, neural network都會講到,也會寫數學推導。 所以我目前覺得統研所的觀點偏很數學。 至於程式設計,老師根本沒有要你寫程式。說用R跑就可以了。 再來計算統計: 當然從課名就知道是從計算機角度看統計,你會用很多gradient descent, hessian matrix 去找MLE什麼的,基本上就是從演算法角度去求解統計需要的optimization和sampling問題。 我在修的時候,作業幾乎都有coding,考試卻考你一堆數學推導,那時候真的修的很痛苦 要同時顧及coding和數學題目其實loading有點大。 現在在上資工所的ML,教科書大多都是用PRML,這本我覺得滿有機率論的fu 正在上的感覺是主要就是分clustering, supervised and non-supervised 沒有偏哪一門,反倒統計主要是以supervised learning為主。 沒有考試,只有作業和projects,上課數學推導沒有很多,直接給你直觀的解釋。 然後就要叫你寫k means, GMM之類的,就是start from scratch CS的訓練本來就是這樣,你聽完老師上課,剩下就是你要去實現它。 這就是我覺得stat和cs最大的不同。 但是,我自己感覺CS的人會困惑這些數學式子,stat會苦於無法把自己的模型實現。 如果你是可以讀統博的人,我覺得修哪都沒差,但如果你只有碩士,我覺得還是學CS的ML比較好。 因為統碩學的,你去外面給人講,會讓人覺得你只是懂會講,至於那些engineering side,可以立即看到產出的,你無法給外人看到東西。 自然會讓人覺得是不是只是空有一張嘴巴XD 但是我覺得還是看各個學校拉,有些統研所老師也是資工所老師,所以我覺得還是有差別。 如果你的統研所老師是那種純數學出身,八九不離十他的ML一定很多數學推導 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.37.136.176 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1591335143.A.C8E.html ※ 編輯: fsuhcikt1003 (114.37.136.176 臺灣), 06/05/2020 13:34:25

06/05 14:08, 4年前 , 1F
不懂原理卻一直coding真的心很累,像baysian NN我就自己
06/05 14:08, 1F

06/05 14:08, 4年前 , 2F
花了一年才算理解。
06/05 14:08, 2F

06/05 14:14, 4年前 , 3F
很好奇CS背景在看PRML variational inference 章節每個
06/05 14:14, 3F

06/05 14:14, 4年前 , 4F
字句都充份理解?我弱我不行。
06/05 14:14, 4F

06/05 14:27, 4年前 , 5F
我被生物意義和數學原理困住,coding頂多是卡在bug..
06/05 14:27, 5F

06/05 14:52, 4年前 , 6F
數學跟實作同樣重要,先檢視你的數據、目標找最適合
06/05 14:52, 6F

06/05 14:52, 4年前 , 7F
的算法
06/05 14:52, 7F

06/05 17:04, 4年前 , 8F
06/05 17:04, 8F

06/05 19:55, 4年前 , 9F
CS ML理解深不深還是要看教授,不過電資教授通常都是假
06/05 19:55, 9F

06/05 19:55, 4年前 , 10F
設學生數理能力沒問題了,直接從物理意義上推究,真的碰
06/05 19:55, 10F

06/05 19:55, 4年前 , 11F
到有興趣的部分在深入做推導就好了。至於業界真的碰到
06/05 19:55, 11F

06/05 19:55, 4年前 , 12F
的都是要你去解決工程問題算法落地才是一切,那種尚待
06/05 19:55, 12F

06/05 19:55, 4年前 , 13F
探索的理論不是業界需要的,除非你有能力進到最先進的
06/05 19:55, 13F

06/05 19:55, 4年前 , 14F
企業實驗室,不然我真心認為不需要真的自己會推導,反
06/05 19:55, 14F

06/05 19:55, 4年前 , 15F
而CS學到的工程實務才是真正需要的。灣區一堆DS現在薪
06/05 19:55, 15F

06/05 19:55, 4年前 , 16F
資也走向兩極化,除非你真的超強自創ML算法模型,不然真
06/05 19:55, 16F

06/05 19:55, 4年前 , 17F
的要往上爬只有靠結合工程應用。
06/05 19:55, 17F

06/05 20:02, 4年前 , 18F
套一句我以前教授說的,做學術領域第一種超強是開宗闢土
06/05 20:02, 18F

06/05 20:02, 4年前 , 19F
,有能力從0開始推敲出沒有人有辦法突破的公理,這種人
06/05 20:02, 19F

06/05 20:02, 4年前 , 20F
十幾億人只有只千個,普通人就乖乖理解物理意義,實踐工
06/05 20:02, 20F

06/05 20:02, 4年前 , 21F
程來改善前人算法的缺點就可以上很好的Journal了。
06/05 20:02, 21F

06/05 20:20, 4年前 , 22F
台灣的小朋友太喜歡推導公式這件事情上了,我大學也很
06/05 20:20, 22F

06/05 20:20, 4年前 , 23F
喜歡推導,那個時候寫滿滿一本在推馬克斯威爾方程,後
06/05 20:20, 23F

06/05 20:20, 4年前 , 24F
來教授只是點一下物理意義馬上就通了才發現太拘泥在推
06/05 20:20, 24F

06/05 20:20, 4年前 , 25F
導公式上不太有實質意義。
06/05 20:20, 25F

06/06 15:16, 4年前 , 26F
推s大 實現比較重要 原理推導自己try不會太浪費時間
06/06 15:16, 26F

06/06 15:16, 4年前 , 27F
不要像偶自以為coding還行浪費1年優化自刻的mcmc orz
06/06 15:16, 27F

06/06 15:53, 4年前 , 28F
好奇原po大學是不是念統計系
06/06 15:53, 28F

06/06 16:45, 4年前 , 29F
的確啊 現在ML領域都一堆輪子了 沒必要從頭刻吧? 除非
06/06 16:45, 29F

06/06 16:45, 4年前 , 30F
是想理解概念
06/06 16:45, 30F

06/07 01:36, 4年前 , 31F
懂輪子怎麼跑起來的還是會有所幫助,真正頂尖的人最後都是
06/07 01:36, 31F

06/07 01:37, 4年前 , 32F
兩者兼具,但不是所有人都非得到那個程度才可以開始做研究
06/07 01:37, 32F

06/07 01:37, 4年前 , 33F
,這東西是可以漸進的,而且也可以停在自己覺得足夠的地方
06/07 01:37, 33F

06/08 09:24, 4年前 , 34F
覺得這篇討論好多乾貨..讓我膜拜一下
06/08 09:24, 34F

06/08 15:30, 4年前 , 35F
想到我老師出國念CS碩博順便念了一個統計碩
06/08 15:30, 35F

06/25 17:53, 4年前 , 36F
感謝分享!
06/25 17:53, 36F
文章代碼(AID): #1UsTZdoE (DataScience)
文章代碼(AID): #1UsTZdoE (DataScience)