Re: [問題] kaggle, featured conpetition的可信度

看板DataScience作者f496328mm (123)時間7年前 (2018/05/19 12:08)推噓2(2推 0噓 3→)

留言5則, 4人參與討論串3/6 (看更多)

※ 引述《ANGUS582 (ANGUS )》之銘言： : 手機發文，排版請多見諒 : 如題，想請問版上各界的大師，對於業界/學界而言，在kaggle中的featured competit io : n得名或是拿到top 10%/top5%/top1%/in-prize，大概能代表你的能力在哪呢，換句話來 : 說，就是kaggle的比賽成績，在面試(就職或讀md/phd)能帶給你多少優勢？ : 會有這問題是因為，sjv這位kaggle的grandmaster在Corporacion的賽後有提出關於kag gl : e的疑慮(https://goo.gl/SwMUjC ,他的文章底部)，其中有像官方的data preprocessi ng : 以及train/test split，而他在下面回文也有提到，好像學界跟一些研究者也不大重視 ka : ggle上的成績。這讓我蠻困惑跟緊張的，小弟在去年加入kaggle，玩到現在也有幾個to p1 : 0% : /top5%，雖然過程中真的有學到不少，但主要還是在思考比賽成績能不能應用在以後的升 : 學或職涯，如果真的完全如他所說，那還真的挺令人遺憾的。 : 不知道版上的各位大師們有什麼看法呢？看你怎麼用kaggle，它有好有壞就像你說的，kaggle不會接觸到資料預處理過程，你不需要會資料庫、資料清理、收集、管理，不需要控制預測時間，甚至不用定義問題，上面這些kaggle都幫你處理好了你只要『預測』，就算太花時間無法 real time analysis 作為產品上線，跟名次也無關問題是，上面這些如果都不會，很難跟業界接軌，只會建model做預測，是無法產品化的，業界你還要說服上級，你的預測是好的，不然上面很難相信你，要上線就有難度，這可不是做做CV就好了，可惜視覺化也不會算在排名上當然kaggle也有它的好處 kaggler樂於分享自己的作法，這點對初學者很棒，初學者完全不用考慮資料收集清理的事，打到前面也很有成就感如果一開始就做 data clean ，可能就沒人想來這塊了XD 在kaggle上，你可以接觸各種問題，有非常不同的data給你玩，你進入的公司，可能只專注在某個問題上，data比較侷限而當你把 data 收集好清理完後，可以直接參考kaggle上前幾名的方法，應用在你的問題上，可以大大減少自己去做 feature engineering、建 model 的時間 kaggle目前已經累積非常多問題的解法，在多樣性方面非常棒，作為參考是個不錯的平台，可以加以修改再套用到自己的產品上最後，回到你的問題上，對於升學或職涯，單純只有kaggle是不夠的，資料科學可不只有建 model 做預測，你還有一大堆技能樹要點 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.137.232.33 ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1526702937.A.E50.html ※ 編輯: f496328mm (114.137.232.33), 05/19/2018 12:10:07