Re: [問題] kaggle, featured conpetition的可信度
※ 引述《ANGUS582 (ANGUS )》之銘言:
: 手機發文,排版請多見諒
: 如題,想請問版上各界的大師,對於業界/學界而言,在kaggle中的featured competit
io
: n得名或是拿到top 10%/top5%/top1%/in-prize,大概能代表你的能力在哪呢,換句話
來
: 說,就是kaggle的比賽成績,在面試(就職或讀md/phd)能帶給你多少優勢?
: 會有這問題是因為,sjv這位kaggle的grandmaster在Corporacion的賽後有提出關於kag
gl
: e的疑慮(https://goo.gl/SwMUjC ,他的文章底部),其中有像官方的data preprocessi
ng
: 以及train/test split,而他在下面回文也有提到,好像學界跟一些研究者也不大重視
ka
: ggle上的成績。這讓我蠻困惑跟緊張的,小弟在去年加入kaggle,玩到現在也有幾個to
p1
: 0%
: /top5%,雖然過程中真的有學到不少,但主要還是在思考比賽成績能不能應用在以後的
升
: 學或職涯,如果真的完全如他所說,那還真的挺令人遺憾的。
: 不知道版上的各位大師們有什麼看法呢?
看你怎麼用kaggle,它有好有壞
就像你說的,kaggle不會接觸到資料預處理過程,你不需要會資料庫、資料清理、收集、
管理,不需要控制預測時間,甚至不用定義問題,上面這些kaggle都幫你處理好了
你只要『預測』,就算太花時間無法 real time analysis 作為產品上線,跟名次也無關
問題是,上面這些如果都不會, 很難跟業界接軌,只會建model做預測,是無法產品化的
,
業界你還要說服上級,你的預測是好的,不然上面很難相信你,要上線就有難度,這可不
是做做CV就好了,可惜視覺化也不會算在排名上
當然kaggle也有它的好處
kaggler樂於分享自己的作法,這點對初學者很棒,初學者完全不用考慮資料收集清理的
事,打到前面也很有成就感
如果一開始就做 data clean ,可能就沒人想來這塊了XD
在kaggle上,你可以接觸各種問題,有非常不同的data給你玩,你進入的公司,可能只專
注在某個問題上,data比較侷限
而當你把 data 收集好清理完後,可以直接參考kaggle上前幾名的方法,應用在你的問題
上,可以大大減少自己去做 feature engineering、建 model 的時間
kaggle目前已經累積非常多問題的解法,在多樣性方面非常棒,作為參考是個不錯的平台
,可以加以修改再套用到自己的產品上
最後,回到你的問題上,對於升學或職涯,單純只有kaggle是不夠的,資料科學可不只有
建 model 做預測,你還有一大堆技能樹要點
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.137.232.33
※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1526702937.A.E50.html
※ 編輯: f496328mm (114.137.232.33), 05/19/2018 12:10:07
推
05/19 16:23,
6年前
, 1F
05/19 16:23, 1F
推
05/19 17:28,
6年前
, 2F
05/19 17:28, 2F
→
05/19 17:28,
6年前
, 3F
05/19 17:28, 3F
→
05/19 22:18,
6年前
, 4F
05/19 22:18, 4F
→
05/20 17:30,
6年前
, 5F
05/20 17:30, 5F
討論串 (同標題文章)
本文引述了以下文章的的內容:
完整討論串 (本文為第 3 之 6 篇):
DataScience 近期熱門文章
PTT數位生活區 即時熱門文章