[討論] 資料分析的門檻

看板DataScience作者 (kmdick)時間5年前 (2019/04/22 18:55), 5年前編輯推噓18(18055)
留言73則, 23人參與, 5年前最新討論串1/2 (看更多)
小弟目前還是菜逼八大學生,最近做資料分析的專題覺得有點渺茫,感覺都是在拿套件做 一些固定的流程 ex: 搜集資料、feature selection、套sklearn的model或用pytorch之類的package寫一個NN, 我覺得叫一個沒學過機器學習的高中生學一下python也做的出來我現在在做的事,那我 學這些理論的意義到底在哪? 請各位大神指點一下 謝謝 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 140.113.121.11 ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1555930500.A.6BA.html

04/22 19:05, 5年前 , 1F
嚴格上來說你只學到步驟 沒學到理論
04/22 19:05, 1F

04/22 19:34, 5年前 , 2F
data scientist很多時候都在分析資料,處理資料的脈絡,
04/22 19:34, 2F

04/22 19:34, 5年前 , 3F
了解你的資料,反而model訓練都是次要的,資料前處理做
04/22 19:34, 3F

04/22 19:34, 5年前 , 4F
得好,用什麼方法其實沒太大的差異。你還沒領會到精髓,
04/22 19:34, 4F

04/22 19:34, 5年前 , 5F
現成的dataset都是幫你處理好的,你很難體會到。
04/22 19:34, 5F

04/22 19:41, 5年前 , 6F
從髒資料兜到能用的,中間省略,分析完要幹嘛
04/22 19:41, 6F

04/22 19:41, 5年前 , 7F
前後吃經驗的卡好玩
04/22 19:41, 7F

04/22 19:55, 5年前 , 8F
還有客戶有時候給你一大坨髒資料,你問他想做什麼,他回
04/22 19:55, 8F

04/22 19:55, 5年前 , 9F
不知道,我想做很酷很炫又很AI的東西。客戶通常的意思就
04/22 19:55, 9F

04/22 19:55, 5年前 , 10F
是我把資料給你,你能做出跟我心裡想的一樣的,跟我一
04/22 19:55, 10F

04/22 19:55, 5年前 , 11F
樣有智慧的東西。
04/22 19:55, 11F

04/22 20:55, 5年前 , 12F
因為更深的理論不是一般大學生學得會的 先把大學基礎學好
04/22 20:55, 12F
有修過113電信的ml跟看過林軒田的ml ,但是教的model在sklearn都有了吧@@好像最後也 只要無腦call那些寫好的function就好

04/22 20:56, 5年前 , 13F
有興趣等上研究所後再去探討吧 除非你大學課都修完了很閒
04/22 20:56, 13F

04/22 20:56, 5年前 , 14F
可以去找教授旁聽一些研究所課程
04/22 20:56, 14F

04/22 20:57, 5年前 , 15F
如果你連研究所課程都覺得太簡單了 恭喜你萬中選一的人才
04/22 20:57, 15F

04/22 20:57, 5年前 , 16F
找個教授簽下去吧 (?
04/22 20:57, 16F
※ 編輯: nctukmdick (140.113.121.11), 04/22/2019 21:02:36

04/22 21:46, 5年前 , 17F
model 在 sklearn 都有,這不是重點
04/22 21:46, 17F

04/22 21:47, 5年前 , 18F
model 大家都會 call
04/22 21:47, 18F

04/22 21:48, 5年前 , 19F
你直接接觸實務面,你就會得到答案了
04/22 21:48, 19F

04/22 21:49, 5年前 , 20F
單就蒐集資料來講,你要每天更新 data、備份
04/22 21:49, 20F

04/22 21:49, 5年前 , 21F
確保資料正確性,然後設計API給別人call
04/22 21:49, 21F

04/22 21:50, 5年前 , 22F
然後清理資料,從data中找出價值
04/22 21:50, 22F

04/22 21:50, 5年前 , 23F
事前沒有人知道怎麼做,你要自己找出方向
04/22 21:50, 23F

04/22 21:52, 5年前 , 24F
單就你現在的專題來說,課程結束後,作品要持續開發
04/22 21:52, 24F

04/22 21:53, 5年前 , 25F
不要像一堆人,專題 or paper結束後,東西就消失不見了
04/22 21:53, 25F

04/22 22:51, 5年前 , 26F
這些只是工具 在對的地方用對的工具製造產值才有價值
04/22 22:51, 26F

04/22 23:42, 5年前 , 27F
還有如果你真的覺得處理資料脈絡很low,那你可以往更高
04/22 23:42, 27F

04/22 23:42, 5年前 , 28F
的算法前進,物體識別跟NLU一堆需要突破的技術瓶頸,像
04/22 23:42, 28F

04/22 23:42, 5年前 , 29F
圖像識別跟人類理解物體的方式仍然有差距,NLU也是。真
04/22 23:42, 29F

04/22 23:42, 5年前 , 30F
的覺得自己很厲害的,歡迎你來突破。
04/22 23:42, 30F

04/23 14:20, 5年前 , 31F
想法跟1樓比較像,流程真的不外乎就是那幾個步驟,難的是
04/23 14:20, 31F

04/23 14:20, 5年前 , 32F
每個步驟都有自己的domain know how,model別人都幫你包
04/23 14:20, 32F

04/23 14:20, 5年前 , 33F
好了,你說大家都可以直接call,那不就代表大家都在一個
04/23 14:20, 33F

04/23 14:20, 5年前 , 34F
起跑線上,那要怎樣才能贏別人呢?
04/23 14:20, 34F

04/23 16:56, 5年前 , 35F
代碼跟工程能力才是鐵飯碗
04/23 16:56, 35F

04/23 17:20, 5年前 , 36F
call model人人都會,所以當然know how是在別的地方
04/23 17:20, 36F

04/23 17:21, 5年前 , 37F
你覺得很簡單,一方面也是因為你做的是沒價值的事
04/23 17:21, 37F

04/23 17:23, 5年前 , 38F
請記住一個通則:「困難的事情不一定有價值,但是簡單的
04/23 17:23, 38F

04/23 17:24, 5年前 , 39F
事情一般都沒價值」,一件事會做的人多當然就沒啥價值
04/23 17:24, 39F

04/23 17:25, 5年前 , 40F
因為重點本來就不是「你能做什麼」,而是「你能贏過誰」
04/23 17:25, 40F

04/23 17:32, 5年前 , 41F
你可以去試試打一場kaggle, 你就會知道你跟別人的差距在
04/23 17:32, 41F

04/23 17:32, 5年前 , 42F
04/23 17:32, 42F

04/23 20:30, 5年前 , 43F
我覺得市因為你拿到的資料都是別人處理過得
04/23 20:30, 43F

04/23 20:31, 5年前 , 44F
通常資料預處理就花超多時間
04/23 20:31, 44F

04/23 21:39, 5年前 , 45F
ML/DL的理論本來就不難,核心算法的改進也輪不到你
04/23 21:39, 45F

04/23 21:39, 5年前 , 46F
重點在應用,那就是特定領域的知識要強了
04/23 21:39, 46F

04/23 22:41, 5年前 , 47F
高中生能會的事情多了 學個四年還能變大學生呢。
04/23 22:41, 47F

04/24 09:51, 5年前 , 48F
博士都call package做ai了,跟上好嗎…
04/24 09:51, 48F

04/24 11:10, 5年前 , 49F
在台灣搞理論研究只會餓死 應用才是出路
04/24 11:10, 49F

04/24 11:50, 5年前 , 50F
做個實際有用的模型來看看?
04/24 11:50, 50F

04/24 17:10, 5年前 , 51F
自己寫個爬蟲抓資料自己做預測題目就知道了啦
04/24 17:10, 51F

04/24 17:10, 5年前 , 52F
光整理資料跟想feature就可以搞死你了
04/24 17:10, 52F

04/24 20:01, 5年前 , 53F
看paper 實作paper內容也太簡單嗎
04/24 20:01, 53F

04/24 20:02, 5年前 , 54F
找一篇有提供原始碼的paper跟著做做看
04/24 20:02, 54F

04/24 21:38, 5年前 , 55F
可以看一些paper
04/24 21:38, 55F

04/24 21:38, 5年前 , 56F
看看這領域大家在研究什麼
04/24 21:38, 56F

04/25 00:36, 5年前 , 57F
大家都無腦call 但是有人能拿名 有人卻永遠銅牌等級
04/25 00:36, 57F

04/25 08:52, 5年前 , 58F
也沒有到無腦call啦,但是確實不需要在從底層實作上來,
04/25 08:52, 58F

04/25 08:52, 5年前 , 59F
就像吳教授說的,有現成的幹嘛不用,你自己從0開始實現
04/25 08:52, 59F

04/25 08:52, 5年前 , 60F
,到時候bug一堆,不如一開始就call sklearn、tensorflo
04/25 08:52, 60F

04/25 08:52, 5年前 , 61F
w用用成熟的model,這才是正確的商業思維。要不然企業
04/25 08:52, 61F

04/25 08:52, 5年前 , 62F
哪裡等你花時間在算法上,除非你的公司是google或deepmi
04/25 08:52, 62F

04/25 08:52, 5年前 , 63F
nd,要不然還是多花點心思在可控的範圍內,弄出漂亮的特
04/25 08:52, 63F

04/25 08:52, 5年前 , 64F
徵給模型方便訓練。
04/25 08:52, 64F

04/25 09:03, 5年前 , 65F
大家都想往通用算法前進,在這領域的誰不想做出一個真
04/25 09:03, 65F

04/25 09:03, 5年前 , 66F
正完勝圖靈測試的機器,而不是靠這些trick,但能擠進窄
04/25 09:03, 66F

04/25 09:03, 5年前 , 67F
門的真的少之又少,大多都是改改算法小部分不完美的部
04/25 09:03, 67F

04/25 09:03, 5年前 , 68F
分或是應用到不同領域上。
04/25 09:03, 68F

04/25 15:37, 5年前 , 69F
特征沒做好 調參調到老
04/25 15:37, 69F

04/25 16:44, 5年前 , 70F
找coursera來看
04/25 16:44, 70F

04/30 04:41, 5年前 , 71F
kaggle幾乎都是用套件,可是不是每個人能用的一樣好
04/30 04:41, 71F

04/30 15:39, 5年前 , 72F
最近有論文是丟raw就變強惹 我們自己轉換的弱弱的
04/30 15:39, 72F

05/08 13:33, 5年前 , 73F
113 DL不修嗎?
05/08 13:33, 73F
文章代碼(AID): #1SlPs4Qw (DataScience)
文章代碼(AID): #1SlPs4Qw (DataScience)