[問題] 請問數據標準化跟偏度處理

看板DataScience作者 (溫暖的大手)時間2年前 (2022/11/10 13:23), 2年前編輯推噓2(2017)
留言19則, 5人參與, 2年前最新討論串1/1
最近在練習Kaggle的房價預測 看了一些前輩的分享, 有些都是modeling之前數據用StandardScaler作標準化 也有的是在數據前處理的時候就對目標函數做log轉換, 其他特徵值做boxcox轉換 請問如果目的是要讓數據正規化分布的話,為什麼不直接做標準化就好呢? -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 163.139.171.21 (日本) ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1668057809.A.6BC.html

11/10 13:59, 2年前 , 1F
什麼是偏化
11/10 13:59, 1F
chang1248w: 標準化不會改變偏度啊 我理解正確的話, 都是讓要讓數據正規分布... 11/10 14:12 ※ 編輯: qddcynthia (163.139.171.21 日本), 11/10/2022 14:30:02 ※ 編輯: qddcynthia (163.139.171.21 日本), 11/10/2022 14:30:50 ※ 編輯: qddcynthia (163.139.171.21 日本), 11/10/2022 14:32:07

11/10 15:04, 2年前 , 2F
標準化不會讓數據正規分布啊.
11/10 15:04, 2F

11/10 15:48, 2年前 , 3F
資料前處理的目的有很多啊,有的模型會被資料的scale
11/10 15:48, 3F

11/10 15:48, 2年前 , 4F
影響的,像是knn 神經網路 還有一些gradient based的
11/10 15:48, 4F

11/10 15:48, 2年前 , 5F
方法
11/10 15:48, 5F

11/10 15:49, 2年前 , 6F
另外有的目的是為了在視覺上呈現資訊
11/10 15:49, 6F

11/11 02:23, 2年前 , 7F
兩個效果不一樣吧。標準化改變尺度不改變分佈,你把處
11/11 02:23, 7F

11/11 02:23, 2年前 , 8F
理前後的histogram畫出來就知道不會變
11/11 02:23, 8F

11/11 02:28, 2年前 , 9F
你提到的boxcox才會改變特徵分佈,如果原本特徵不符合
11/11 02:28, 9F

11/11 02:28, 2年前 , 10F
常態分佈,效果就是讓處理後的資料比較像,因爲大部分m
11/11 02:28, 10F

11/11 02:28, 2年前 , 11F
odel都假設處理的特徵是常態分佈才這樣做,一樣可以把
11/11 02:28, 11F

11/11 02:28, 2年前 , 12F
處理前後的histogram畫出來比較
11/11 02:28, 12F

11/11 07:35, 2年前 , 13F
那請問一般是兩種方法都一起用嗎?
11/11 07:35, 13F

11/11 15:39, 2年前 , 14F
這也不一定
11/11 15:39, 14F

11/11 20:28, 2年前 , 15F
X做標準化的部分同意4樓說的 有的模型對於outliers很敏
11/11 20:28, 15F

11/11 20:28, 2年前 , 16F
感 就適合先做標準化 你說的boxcox是針對y轉換 因為y資
11/11 20:28, 16F

11/11 20:28, 2年前 , 17F
料分佈標準差太大 把他做一個轉換後 再和X去build model
11/11 20:28, 17F

11/11 20:28, 2年前 , 18F
這個model predict出的Y再用boxcox反函數轉回原本y的樣
11/11 20:28, 18F

11/11 20:28, 2年前 , 19F
本空間
11/11 20:28, 19F
文章代碼(AID): #1ZR8hHQy (DataScience)
文章代碼(AID): #1ZR8hHQy (DataScience)