[轉錄] [閒聊] 菜鳥上Kaggle: 房價預測 1

看板DataScience作者aaaba (小強)時間7年前 (2018/03/10 08:46)推噓5(5推 0噓 12→)

留言17則, 6人參與討論串1/1

作者: pipidog (如果狗狗飛上天) 看板: Python 標題: Re: [閒聊] 菜鳥上Kaggle: 房價預測時間: Wed Mar 7 04:33:23 2018 ※ 引述《OnePiecePR (OPPR)》之銘言： : 這裡有人玩 Kaggle 嗎？ : 其實我還沒認真坐坐下來學Python，也沒其他程式經驗。 : 只是朋友說Kaggle 很好玩，可以當作學 Python 的目標，建議每兩週作一題，我就挑戰 : 看看。 : 我做的是很久的題目，1460 筆房價資料，每筆資料79個特性。 : 訓練後，要估另外1459筆資料回傳讓網站系統估算成績。 : 我先花了四五天，整理資料（我以前 Excel 還可以），然後朋友丟一個 Lasso Regressi : on給我，我馬上套用，算一個結果就上傳... 以為這樣就算完成一題。 : 結果被打搶，Error message 我沒看清楚。 : 那一版真的很差，預估值誤差 rmse 將近35000。 : 再花了一週時間，重新再整一次資料，邊研究別人的方法，大致加了兩招：XGB 跟 K fol : d 誤差降低到15000 左右。我想大概是我的極限了。 : 過程中一直用的 bumpy，pandas，一下子 array, 一下子 dataframe, 花了不少時間處理 : ，應該乖乖坐下來搞懂才是。一點想法: 1. 1460筆資料,卻有79的feature,似乎太多了.你聽過維度詛咒嗎? 建議先作特徵選取,挑出最重要的20個feature(或者更少? 這你得試試看才知道)來作訓練: *你說你選擇用Lasso Regression,不知是有目的的這樣作還是隨便挑的,因為Lasso 其實就是在loss裡面加入了L1懲罰,L1會導致線性擬合的時候很多參數被強迫變成0.這意味著你也認為這79個feature裡面,其實只有幾個是真正重要的.如果是這樣,何不一開始就先試著作特徵選取? (事實上有時候Lasso就是拿來做特徵選取之用) http://scikit-learn.org/stable/modules/feature_selection.html 2. 如果資料只有1千多筆,而網站又提供的另外的測試集了,建議訓練時就不要再分測試跟訓練了. 你直接對全部的資料用corss-validation來判斷模型表現,找出好的超參數後,就拿全部資料訓練模型就好.才一千多筆還分測試跟訓練,貴了一點. http://scikit-learn.org/stable/modules/cross_validation.html 3. 你的數據可能非線性程度高,用Lasso自然不好,試試看SVM(支援向量機)? 一般如果是回歸問題,kernal多選用Radial basis function http://scikit-learn.org/stable/modules/svm.html#regression 4. 沒有一個模型不能解決的事情,如果有,就給它一堆模型! 所以你可以考慮ensemble learning,例如random forest, adaboost,..,etc.多數情況下會比用單一模型好. http://scikit-learn.org/stable/modules/ensemble.html 5. 最後找個網站,把pandas練熟,這東西沒弄熟,洗資料會搞得你很痛苦. https://ithelp.ithome.com.tw/users/20103511/ironman/1077?page=2 看一下14,15天. * 最後,處理數據佔90%的時間,訓練模型只佔10%,這是很正常的...越髒的事情越花時間 ,不要覺得奇怪. -- ★人生中最溫暖的夏天是在紐約的冬天★ -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 73.66.168.95 ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1520368414.A.CE9.html ※ 編輯: pipidog (73.66.168.95), 03/07/2018 04:51:15

推

aszx4510

03/07 05:58,

03/07 05:58

推

stoltzman

03/07 07:18,

03/07 07:18

推

vfgce

03/07 07:30,

03/07 07:30