[問題] 有關於bootstrapping的謎思

看板R_Language作者 (lenofire)時間9年前 (2016/10/26 19:13), 9年前編輯推噓0(0042)
留言42則, 6人參與, 最新討論串1/1
我看完了一些文獻,想要做bootstrapping 的resample(隨機抽樣)以達成減少多數類別 問題(一 使用bootstrapping後該如何看隨機抽樣結果? 問題(二 使用bootstrapping是需要把三類別一起放進去才能運作? 問題(三 我是該輸人哪句指令?用這句但沒反應 http://i.imgur.com/ggcnikf.jpg
----------- https://youtu.be/tb6wb9ZdPH0?t=6m46s
大家可以參考該影片 ,我是不懂怎麼運用在大量資料上 ------------- http://i.imgur.com/Lg4WvMv.jpg
如圖所見 資料紅色Label A有過多的現象,發生了imbalance dataset ,所以我要使用undersample 與over sample 但Rose package 不能應用在多分類上 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 163.22.18.105 ※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1477480426.A.F8F.html

10/26 21:04, , 1F
看不懂你做bootstrap的目的
10/26 21:04, 1F

10/26 21:07, , 2F
然後…你的三個問題雖是中文但我沒有一句看得懂的...
10/26 21:07, 2F

10/26 21:49, , 3F
我boostrap 目的是為了做隨機抽選,但我不會做這動作
10/26 21:49, 3F
※ 編輯: lenofire (163.22.18.73), 10/26/2016 21:49:49 ※ 編輯: lenofire (163.22.18.73), 10/26/2016 21:50:47

10/26 22:24, , 4F
隨機抽樣會用到bootstrap嗎? 這不是用來減少variance嗎
10/26 22:24, 4F

10/26 22:33, , 5F
感覺你搞錯bootstrap的意思
10/26 22:33, 5F

10/26 23:35, , 6F
嗯。還是不知道你在說什麼。可否再說白一點?
10/26 23:35, 6F

10/26 23:45, , 7F
看不懂問題+1 不過你執行完打a enter 就會有反應了 真的
10/26 23:45, 7F

10/26 23:55, , 8F
我簡單來說就是要用拔靴法做resample 但不懂看結果
10/26 23:55, 8F

10/26 23:57, , 9F
Bootstrap 本來就會做隨機抽選 而且可以用于undersample
10/26 23:57, 9F

10/26 23:57, , 10F
問題
10/26 23:57, 10F

10/27 00:37, , 11F
那段原碼跑不出來正常,因為它少了一個括號。
10/27 00:37, 11F

10/27 00:39, , 12F
它的意思是從x中抽出且放回10個取平均,這樣100次。
10/27 00:39, 12F

10/27 00:46, , 13F
「以達成減少多數類別」到底是?
10/27 00:46, 13F

10/27 00:52, , 14F
統計應該都稱bootstrapping 沒有再用bootstrap吧
10/27 00:52, 14F
※ 編輯: lenofire (223.140.208.2), 10/27/2016 09:14:45

10/27 09:48, , 15F
隨機抽選沒錯,但你問題中多數類別、三類別指的是什麼?~~
10/27 09:48, 15F
※ 編輯: lenofire (163.22.18.105), 10/27/2016 10:39:33

10/27 11:20, , 16F
我是不懂是只用把A類放進去隨機抽選就好了嗎 http://i.i
10/27 11:20, 16F

10/27 11:20, , 17F
mgur.com/2MpNdoy.jpg
10/27 11:20, 17F

10/27 11:21, , 18F
※ 編輯: lenofire (163.22.18.105), 10/27/2016 11:34:05

10/27 11:37, , 19F
imbalance data?
10/27 11:37, 19F

10/27 11:40, , 20F
你可以試試看ROSE package 裡面也是用你說的bootstrapin
10/27 11:40, 20F

10/27 11:41, , 21F
來作為oversample undersample 與 人造資料的用途
10/27 11:41, 21F

10/27 11:42, , 22F
這個是參考網站 https://goo.gl/iBM5JV
10/27 11:42, 22F

10/27 11:56, , 23F
我先看 謝謝了
10/27 11:56, 23F

10/27 23:37, , 24F
可是這個不能用在多分類上
10/27 23:37, 24F

10/28 00:47, , 25F
原po要不要再把實際需求明確地描述一次?
10/28 00:47, 25F

10/28 00:49, , 26F
或是舉一個簡單的例子但明確地說明你想做什麼事
10/28 00:49, 26F
※ 編輯: lenofire (163.22.18.73), 10/28/2016 09:15:34

10/28 09:15, , 27F
更新了
10/28 09:15, 27F
※ 編輯: lenofire (163.22.18.73), 10/28/2016 09:16:20

10/28 13:20, , 28F
老實說我並沒有看懂。例如,你每一次bootstraping後要做
10/28 13:20, 28F

10/28 13:21, , 29F
或收集什麼統計量?
10/28 13:21, 29F

10/28 13:22, , 30F
如果你不說明白,老實說,bootstraping本身不必管類別
10/28 13:22, 30F

10/28 13:23, , 31F
就只是單純抽出且放回而已。
10/28 13:23, 31F

10/28 13:26, , 32F
例如你有三組,那就三組都做抽100個取統計量共10000次。
10/28 13:26, 32F

10/28 13:27, , 33F
這樣不就是「平衡」了?
10/28 13:27, 33F

10/28 14:03, , 34F

10/28 14:12, , 35F
我想你需要把你的資料型態解釋一下,這樣很難猜測
10/28 14:12, 35F

10/28 14:13, , 36F
classification problem的binary classification
10/28 14:13, 36F

10/28 14:13, , 37F
就會有常見的imbalance data,所以target variable要是
10/28 14:13, 37F

10/28 14:13, , 38F
兩個是很正常的,像是EMAIL是不是垃圾信這種,就會有這
10/28 14:13, 38F

10/28 14:14, , 39F
個問題,但是我現在看不太懂你的資料型態,所以只能猜
10/28 14:14, 39F

10/28 15:07, , 40F
沒錯,但有時候會遇上多分類情況 ,的確binary classifi
10/28 15:07, 40F

10/28 15:07, , 41F
cation 是常見的情況
10/28 15:07, 41F

10/28 15:19, , 42F
既然您不明說,我也幫不了你了。
10/28 15:19, 42F
文章代碼(AID): #1O48_g-F (R_Language)
文章代碼(AID): #1O48_g-F (R_Language)