Re: [閒聊] 菜鳥上Kaggle: 房價預測
※ 引述《OnePiecePR (OPPR)》之銘言:
: 這裡有人玩 Kaggle 嗎?
: 其實我還沒認真坐坐下來學Python,也沒其他程式經驗。
: 只是朋友說Kaggle 很好玩,可以當作學 Python 的目標,建議每兩週作一題,我就挑戰
: 看看。
: 我做的是很久的題目,1460 筆房價資料,每筆資料79個特性。
: 訓練後,要估另外1459筆資料回傳讓網站系統估算成績。
: 我先花了四五天,整理資料(我以前 Excel 還可以),然後朋友丟一個 Lasso Regressi
: on給我,我馬上套用,算一個結果就上傳... 以為這樣就算完成一題。
: 結果被打搶,Error message 我沒看清楚。
: 那一版真的很差,預估值誤差 rmse 將近35000。
: 再花了一週時間,重新再整一次資料,邊研究別人的方法,大致加了兩招:XGB 跟 K fol
: d 誤差降低到15000 左右。我想大概是我的極限了。
: 過程中一直用的 bumpy,pandas,一下子 array, 一下子 dataframe, 花了不少時間處理
: ,應該乖乖坐下來搞懂才是。
一點想法:
1. 1460筆資料,卻有79的feature,似乎太多了.你聽過維度詛咒嗎? 建議先作特徵
選取,挑出最重要的20個feature(或者更少? 這你得試試看才知道)來作訓練:
*你說你選擇用Lasso Regression,不知是有目的的這樣作還是隨便挑的,因為Lasso
其實就是在loss裡面加入了L1懲罰,L1會導致線性擬合的時候很多參數被強迫變
成0.這意味著你也認為這79個feature裡面,其實只有幾個是真正重要的.如果是
這樣,何不一開始就先試著作特徵選取? (事實上有時候Lasso就是拿來做特徵選
取之用)
http://scikit-learn.org/stable/modules/feature_selection.html
2. 如果資料只有1千多筆,而網站又提供的另外的測試集了,建議訓練時就不要再分
測試跟訓練了. 你直接對全部的資料用corss-validation來判斷模型表現,找出
好的超參數後,就拿全部資料訓練模型就好.才一千多筆還分測試跟訓練,貴了一點.
http://scikit-learn.org/stable/modules/cross_validation.html
3. 你的數據可能非線性程度高,用Lasso自然不好,試試看SVM(支援向量機)?
一般如果是回歸問題,kernal多選用Radial basis function
http://scikit-learn.org/stable/modules/svm.html#regression
4. 沒有一個模型不能解決的事情,如果有,就給它一堆模型! 所以你可以考慮ensemble
learning,例如random forest, adaboost,..,etc.多數情況下會比用單一模型好.
http://scikit-learn.org/stable/modules/ensemble.html
5. 最後找個網站,把pandas練熟,這東西沒弄熟,洗資料會搞得你很痛苦.
https://ithelp.ithome.com.tw/users/20103511/ironman/1077?page=2
看一下14,15天.
* 最後,處理數據佔90%的時間,訓練模型只佔10%,這是很正常的...越髒的事情越花時間
,不要覺得奇怪.
--
★人生中最溫暖的夏天是在紐約的冬天★
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 73.66.168.95
※ 文章網址: https://www.ptt.cc/bbs/Python/M.1520368414.A.CE9.html
※ 編輯: pipidog (73.66.168.95), 03/07/2018 04:51:15
推
03/07 05:58,
7年前
, 1F
03/07 05:58, 1F
推
03/07 07:18,
7年前
, 2F
03/07 07:18, 2F
推
03/07 07:30,
7年前
, 3F
03/07 07:30, 3F
→
03/07 07:32,
7年前
, 4F
03/07 07:32, 4F
推
03/07 07:37,
7年前
, 5F
03/07 07:37, 5F
→
03/07 07:37,
7年前
, 6F
03/07 07:37, 6F
→
03/07 07:39,
7年前
, 7F
03/07 07:39, 7F
→
03/07 07:42,
7年前
, 8F
03/07 07:42, 8F
→
03/07 07:43,
7年前
, 9F
03/07 07:43, 9F
→
03/07 07:43,
7年前
, 10F
03/07 07:43, 10F
→
03/07 07:44,
7年前
, 11F
03/07 07:44, 11F
→
03/07 07:45,
7年前
, 12F
03/07 07:45, 12F
→
03/07 07:45,
7年前
, 13F
03/07 07:45, 13F
推
03/07 09:33,
7年前
, 14F
03/07 09:33, 14F
推
03/07 11:32,
7年前
, 15F
03/07 11:32, 15F
推
03/07 15:58,
7年前
, 16F
03/07 15:58, 16F
推
03/07 16:03,
7年前
, 17F
03/07 16:03, 17F
推
03/07 16:20,
7年前
, 18F
03/07 16:20, 18F
→
03/07 16:20,
7年前
, 19F
03/07 16:20, 19F
推
03/07 17:03,
7年前
, 20F
03/07 17:03, 20F
推
03/07 17:07,
7年前
, 21F
03/07 17:07, 21F
→
03/07 17:08,
7年前
, 22F
03/07 17:08, 22F
推
03/07 17:21,
7年前
, 23F
03/07 17:21, 23F
推
03/07 17:23,
7年前
, 24F
03/07 17:23, 24F
→
03/07 17:25,
7年前
, 25F
03/07 17:25, 25F
推
03/07 17:29,
7年前
, 26F
03/07 17:29, 26F
→
03/07 17:31,
7年前
, 27F
03/07 17:31, 27F
→
03/07 17:32,
7年前
, 28F
03/07 17:32, 28F
→
03/07 17:33,
7年前
, 29F
03/07 17:33, 29F
推
03/07 21:23,
7年前
, 30F
03/07 21:23, 30F
推
03/08 04:38,
7年前
, 31F
03/08 04:38, 31F
推
03/08 08:28,
7年前
, 32F
03/08 08:28, 32F
推
03/08 10:51,
7年前
, 33F
03/08 10:51, 33F
→
03/08 10:51,
7年前
, 34F
03/08 10:51, 34F
→
03/08 11:19,
7年前
, 35F
03/08 11:19, 35F
推
03/08 16:09,
7年前
, 36F
03/08 16:09, 36F
→
03/17 03:41,
7年前
, 37F
03/17 03:41, 37F
討論串 (同標題文章)
Python 近期熱門文章
PTT數位生活區 即時熱門文章