[問題] SVM分類器預測結果

看板Python作者 (zhi)時間4年前 (2020/07/31 19:26), 編輯推噓8(8015)
留言23則, 12人參與, 4年前最新討論串1/1
想請問一個問題,盼各位高手解惑 我要把處理過後的資料,分成訓練集跟預測集,丟到一個SVM分類器,訓練集去讓分類器 學習,訓練後再把預測集丟到機器讓他預測,結果是好的,但是如果把新進的資料丟到機 器分類結果超怪 假設我有300筆資料,然後把他隨機分割成兩個,一個是訓練,一個是預測的,準確率很 好 把三百筆資料完全當訓練的,新的有30筆,結果卻很差 請問中間是出了什麼差錯? -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 49.216.231.127 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1596194768.A.AD0.html

07/31 19:37, 4年前 , 1F
這種事不是常常發生嗎
07/31 19:37, 1F

07/31 20:49, 4年前 , 2F
偷偷跟你說,我鄰居的小孩寫了300題理化,期中考30分
07/31 20:49, 2F

07/31 21:14, 4年前 , 3F
你datasets的size不一樣的話, 沒辦法比
07/31 21:14, 3F

07/31 21:15, 4年前 , 4F
你得到的test error只是對於真正test error的估計,
07/31 21:15, 4F

07/31 21:15, 4年前 , 5F
test data size越大, test error的估計會越準確.
07/31 21:15, 5F

08/01 01:07, 4年前 , 6F
overfitting?你acc.的變化是如何?
08/01 01:07, 6F

08/01 12:07, 4年前 , 7F
stratified sampling嗎
08/01 12:07, 7F

08/01 12:07, 4年前 , 8F
你有做上面的事嗎
08/01 12:07, 8F

08/01 14:02, 4年前 , 9F
表示你取的資料特徵不夠好
08/01 14:02, 9F

08/01 17:23, 4年前 , 10F
應該因爲你新資料的特徵分佈跟訓練資料不同。一個是
08/01 17:23, 10F

08/01 17:23, 4年前 , 11F
擴大訓練資料的分佈範圍。另一個是更好的特徵擷取。
08/01 17:23, 11F

08/01 20:59, 4年前 , 12F
所以你要做cross validation、調參數,甚至試試其他algorit
08/01 20:59, 12F

08/01 21:02, 4年前 , 13F
hm阿。也有可能sample不夠或沒有代表性。高度fit training
08/01 21:02, 13F

08/01 21:02, 4年前 , 14F
dataset不代表就能精準預測training dataset以外的數據
08/01 21:02, 14F

08/03 10:40, 4年前 , 15F
overfitting 重新作train_test_split 也可以稍微看
08/03 10:40, 15F

08/03 10:41, 4年前 , 16F
一下你的那300個和30個資料是不是長得不太一樣
08/03 10:41, 16F

08/03 10:41, 4年前 , 17F
另外看看能不能增加資料量到1000以上的量級 幾百頗少
08/03 10:41, 17F

08/04 00:04, 4年前 , 18F
這就是要開始做EDA的節奏
08/04 00:04, 18F

08/04 13:14, 4年前 , 19F
簡單的說,你訓練集長的樣子,跟測試集差很多,就是兩
08/04 13:14, 19F

08/04 13:14, 4年前 , 20F
個資料集分佈差異大。要嘛就是你樣本沒抽好,要嘛就是
08/04 13:14, 20F

08/04 13:14, 4年前 , 21F
資料是有時間性的。
08/04 13:14, 21F

08/04 15:18, 4年前 , 22F
你的處理是怎樣處理,下採樣或過採樣的話,你有99.9
08/04 15:18, 22F

08/04 15:18, 4年前 , 23F
9%機率是過擬合
08/04 15:18, 23F
文章代碼(AID): #1V8__GhG (Python)
文章代碼(AID): #1V8__GhG (Python)