[問題] 多個模型比較問題

看板DataScience作者 (kobe)時間6年前 (2018/11/02 21:25), 6年前編輯推噓8(8028)
留言36則, 11人參與, 6年前最新討論串1/1
想請問各位大大,目前小弟在工作上用了一個二分類模型 預測率來到 90%,但老闆不太滿意,問說假如要99% 怎麼辦 小弟提出一個想法,目前有三個差不多的模型 分別為SVM 深度學習 隨機森林 都有接近 90% 的準確 我倒入一組新的樣本(假設未知標籤),讓三個去辨別, 選擇三個模型中最多人判別的結果,再把另一個當作判別錯誤 丟進去那個模型的 train data,重新訓練模型,請問這樣是可行的嗎 會造成什麼問題嗎? -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 1.172.92.239 ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1541165109.A.12F.html

11/02 22:09, 6年前 , 1F
感覺這種做法會產生很強的bias,搞不好的東西更加搞不好
11/02 22:09, 1F
我懂 M 大意思,容易錯更是錯的 我原本是想說三者皆有長處,擷取他們長處 ※ 編輯: kero961240 (1.172.92.239), 11/02/2018 22:11:45 ※ 編輯: kero961240 (1.172.92.239), 11/02/2018 22:12:26 ※ 編輯: kero961240 (1.172.92.239), 11/02/2018 22:15:18 ※ 編輯: kero961240 (1.172.92.239), 11/02/2018 22:15:38

11/02 22:32, 6年前 , 2F
有點ensemble的概念
11/02 22:32, 2F

11/02 22:53, 6年前 , 3F
kaggle比賽常用ensemble多個模型結果 是可以improve一些
11/02 22:53, 3F

11/03 00:47, 6年前 , 4F
假設你現在建模的資料集是A,未標記的是B。
11/03 00:47, 4F

11/03 00:47, 6年前 , 5F
如果你的A、B相似性高,則訓練出來新樣本也就90%準度
11/03 00:47, 5F

11/03 00:47, 6年前 , 6F
所以不會提升準確性;如果B的剛好適應模行,使得B資
11/03 00:47, 6F

11/03 00:48, 6年前 , 7F
料的正確率100%,準確率會提高,但模型更容易overfitt
11/03 00:48, 7F

11/03 00:48, 6年前 , 8F
如果A、B根本不像,你用A預測B都是錯的,很難期望會
11/03 00:48, 8F

11/03 00:48, 6年前 , 9F
拉更高。
11/03 00:48, 9F

11/03 00:49, 6年前 , 10F
只有B的資料跟A不像,但B擁有正確標籤,才有可能cover
11/03 00:49, 10F

11/03 00:49, 6年前 , 11F
原本沒解釋到的部分。
11/03 00:49, 11F

11/03 00:51, 6年前 , 12F
用原始資料調整增加樣本是挺常見的,不過目標通常是希
11/03 00:51, 12F

11/03 00:52, 6年前 , 13F
望之後在預測時可以cover一些資料沒有,但可能出現的
11/03 00:52, 13F

11/03 00:53, 6年前 , 14F
況,像是圖像翻轉。所以期望是模型更廣泛,提高是看運
11/03 00:53, 14F

11/03 00:55, 6年前 , 15F
氣。至於你的方式讓模型更general都做不到,如果真的
11/03 00:55, 15F

11/03 00:55, 6年前 , 16F
預測正確率提升,我反而會擔心。
11/03 00:55, 16F

11/03 00:58, 6年前 , 17F
第一段指的都是你新增自建標籤資料後,新模型的變化。
11/03 00:58, 17F

11/03 01:51, 6年前 , 18F
論文多讀一點可以發現其實蠻多人在用組合模型
11/03 01:51, 18F

11/03 01:51, 6年前 , 19F
只是準確率提升但是速度很慢
11/03 01:51, 19F

11/03 07:09, 6年前 , 20F
要提升到99%只靠組合有點難ㄟ
11/03 07:09, 20F

11/03 07:11, 6年前 , 21F
而且又不知道你的三個Model是不是剛好互補
11/03 07:11, 21F

11/03 07:12, 6年前 , 22F
99%>>>>>不可跨越之壁>>>>>>90%
11/03 07:12, 22F

11/03 07:59, 6年前 , 23F
資料已經90%了 應該無法跨越到99%去
11/03 07:59, 23F

11/03 10:11, 6年前 , 24F
不確定樓上有沒有看懂或是我誤解了,原po說他有一組沒
11/03 10:11, 24F

11/03 10:11, 6年前 , 25F
標籤的資料,想用投票設定標籤,利用這組資料增加正確
11/03 10:11, 25F

11/03 10:11, 6年前 , 26F
率。這個想法可不可行後,才會去探討有沒有90%跟99%的
11/03 10:11, 26F

11/03 10:11, 6年前 , 27F
問題吧。
11/03 10:11, 27F

11/03 10:30, 6年前 , 28F
通常提升程度沒那麼高
11/03 10:30, 28F

11/03 18:28, 6年前 , 29F
半監督式學習?
11/03 18:28, 29F

11/03 19:28, 6年前 , 30F
喔我搞錯惹
11/03 19:28, 30F

11/03 19:28, 6年前 , 31F
應該可以試試但提升程度應該不大
11/03 19:28, 31F

11/03 19:41, 6年前 , 32F
如果你真想要增加偽標籤,用這三者產出soft-label可能還安
11/03 19:41, 32F

11/03 19:41, 6年前 , 33F
全一點
11/03 19:41, 33F
M大您好,不太懂您的意思,可否交流一下 ※ 編輯: kero961240 (1.172.112.140), 11/03/2018 23:10:18

11/03 23:44, 6年前 , 34F
先嘗試做模型的ensemble,semi-supervised learning
11/03 23:44, 34F

11/03 23:44, 6年前 , 35F
不一定會比較好
11/03 23:44, 35F

11/04 17:35, 6年前 , 36F
training acc是多少?data是否imbalance或有noise?
11/04 17:35, 36F
文章代碼(AID): #1Rt50r4l (DataScience)
文章代碼(AID): #1Rt50r4l (DataScience)