Re: [問題] kaggle, featured conpetition的可信度

看板DataScience作者 (123)時間6年前 (2018/05/19 12:08), 6年前編輯推噓2(203)
留言5則, 4人參與, 6年前最新討論串3/6 (看更多)
※ 引述《ANGUS582 (ANGUS )》之銘言: : 手機發文,排版請多見諒 : 如題,想請問版上各界的大師,對於業界/學界而言,在kaggle中的featured competit io : n得名或是拿到top 10%/top5%/top1%/in-prize,大概能代表你的能力在哪呢,換句話 : 說,就是kaggle的比賽成績,在面試(就職或讀md/phd)能帶給你多少優勢? : 會有這問題是因為,sjv這位kaggle的grandmaster在Corporacion的賽後有提出關於kag gl : e的疑慮(https://goo.gl/SwMUjC ,他的文章底部),其中有像官方的data preprocessi ng : 以及train/test split,而他在下面回文也有提到,好像學界跟一些研究者也不大重視 ka : ggle上的成績。這讓我蠻困惑跟緊張的,小弟在去年加入kaggle,玩到現在也有幾個to p1 : 0% : /top5%,雖然過程中真的有學到不少,但主要還是在思考比賽成績能不能應用在以後的 : 學或職涯,如果真的完全如他所說,那還真的挺令人遺憾的。 : 不知道版上的各位大師們有什麼看法呢? 看你怎麼用kaggle,它有好有壞 就像你說的,kaggle不會接觸到資料預處理過程,你不需要會資料庫、資料清理、收集、 管理,不需要控制預測時間,甚至不用定義問題,上面這些kaggle都幫你處理好了 你只要『預測』,就算太花時間無法 real time analysis 作為產品上線,跟名次也無關 問題是,上面這些如果都不會, 很難跟業界接軌,只會建model做預測,是無法產品化的 , 業界你還要說服上級,你的預測是好的,不然上面很難相信你,要上線就有難度,這可不 是做做CV就好了,可惜視覺化也不會算在排名上 當然kaggle也有它的好處 kaggler樂於分享自己的作法,這點對初學者很棒,初學者完全不用考慮資料收集清理的 事,打到前面也很有成就感 如果一開始就做 data clean ,可能就沒人想來這塊了XD 在kaggle上,你可以接觸各種問題,有非常不同的data給你玩,你進入的公司,可能只專 注在某個問題上,data比較侷限 而當你把 data 收集好清理完後,可以直接參考kaggle上前幾名的方法,應用在你的問題 上,可以大大減少自己去做 feature engineering、建 model 的時間 kaggle目前已經累積非常多問題的解法,在多樣性方面非常棒,作為參考是個不錯的平台 ,可以加以修改再套用到自己的產品上 最後,回到你的問題上,對於升學或職涯,單純只有kaggle是不夠的,資料科學可不只有 建 model 做預測,你還有一大堆技能樹要點 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.137.232.33 ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1526702937.A.E50.html ※ 編輯: f496328mm (114.137.232.33), 05/19/2018 12:10:07

05/19 16:23, 6年前 , 1F
這篇回文講的很好,建Model真的只是資料科學的一小部分
05/19 16:23, 1F

05/19 17:28, 6年前 , 2F
kaggle也有髒資料啊,我打過label錯的training data,跟重複
05/19 17:28, 2F

05/19 17:28, 6年前 , 3F
的training data
05/19 17:28, 3F

05/19 22:18, 6年前 , 4F
kaggle的資料不夠髒 不過有練總能幫助思考
05/19 22:18, 4F

05/20 17:30, 6年前 , 5F
初學者打kaggle還是可以學到很多的
05/20 17:30, 5F
文章代碼(AID): #1Q_wDPvG (DataScience)
文章代碼(AID): #1Q_wDPvG (DataScience)