Re: [問題] Validation set 到底在做什麼?
這篇很早期的有關 CV 與 holdout (single validation) 的比較可以給大家參考。
http://robotics.stanford.edu/~ronnyk/accEst.pdf
而就我個人粗淺的觀點,高維度的機器學習固然是個困難的問題,
但 cross-validation 被統計學家發明出來的時候,可還沒有高維度的機器學習呢。:-)
所以把 cross-validation 講成是解決高維度中 train/validation 分割困難
的方式,也許有一些 human overfitting 的誤解。
我的看法是:cross-validation 是一種統計工具,用來協助我們估計模型的表現。
在模型的表現較不穩定的時候(可能因為維度、演算法、資料分佈等原因),它
通常能用更多的計算量達成比 holdout 更穩定的估計。
另外一提的是:前文中所提到的 normalization/scaling 的技巧,在機器學習中
的確非常有用,但它們也不見得是為了解決高維度機器學習的困難而產生的。
我的淺見是,scaling 並不會讓 train/validation splitting 變得更容易或
更困難,因為大部份的 splitting 方法都只對 data 的 index 做 splitting,
而跟 data 的 numerical range 無關。有機會的話我再跟大家聊聊 scaling 為什麼
會有用,不過我想這不是這篇討論的重點。
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 1.171.61.194
※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1522167114.A.3A7.html
推
03/28 00:31,
6年前
, 1F
03/28 00:31, 1F
推
03/28 00:35,
6年前
, 2F
03/28 00:35, 2F
推
03/28 00:38,
6年前
, 3F
03/28 00:38, 3F
推
03/28 00:40,
6年前
, 4F
03/28 00:40, 4F
推
03/28 00:45,
6年前
, 5F
03/28 00:45, 5F
→
03/28 00:46,
6年前
, 6F
03/28 00:46, 6F
→
03/28 00:46,
6年前
, 7F
03/28 00:46, 7F
推
03/28 00:55,
6年前
, 8F
03/28 00:55, 8F
推
03/28 00:55,
6年前
, 9F
03/28 00:55, 9F
推
03/28 00:57,
6年前
, 10F
03/28 00:57, 10F
推
03/28 01:01,
6年前
, 11F
03/28 01:01, 11F
推
03/28 01:06,
6年前
, 12F
03/28 01:06, 12F
推
03/28 01:26,
6年前
, 13F
03/28 01:26, 13F
推
03/28 01:35,
6年前
, 14F
03/28 01:35, 14F
推
03/28 01:38,
6年前
, 15F
03/28 01:38, 15F
推
03/28 01:58,
6年前
, 16F
03/28 01:58, 16F
推
03/28 02:15,
6年前
, 17F
03/28 02:15, 17F
推
03/28 02:53,
6年前
, 18F
03/28 02:53, 18F
推
03/28 03:03,
6年前
, 19F
03/28 03:03, 19F
推
03/28 07:41,
6年前
, 20F
03/28 07:41, 20F
推
03/28 08:07,
6年前
, 21F
03/28 08:07, 21F
推
03/28 08:17,
6年前
, 22F
03/28 08:17, 22F
推
03/28 08:42,
6年前
, 23F
03/28 08:42, 23F
推
03/28 08:52,
6年前
, 24F
03/28 08:52, 24F
推
03/28 09:03,
6年前
, 25F
03/28 09:03, 25F
推
03/28 09:36,
6年前
, 26F
03/28 09:36, 26F
推
03/28 10:07,
6年前
, 27F
03/28 10:07, 27F
推
03/28 10:12,
6年前
, 28F
03/28 10:12, 28F
推
03/28 10:14,
6年前
, 29F
03/28 10:14, 29F
推
03/28 10:33,
6年前
, 30F
03/28 10:33, 30F
推
03/28 11:01,
6年前
, 31F
03/28 11:01, 31F
推
03/28 12:10,
6年前
, 32F
03/28 12:10, 32F
推
03/28 12:58,
6年前
, 33F
03/28 12:58, 33F
推
03/28 13:27,
6年前
, 34F
03/28 13:27, 34F
推
03/28 13:30,
6年前
, 35F
03/28 13:30, 35F
推
03/28 14:19,
6年前
, 36F
03/28 14:19, 36F
推
03/28 14:21,
6年前
, 37F
03/28 14:21, 37F
推
03/28 14:57,
6年前
, 38F
03/28 14:57, 38F
推
03/28 15:41,
6年前
, 39F
03/28 15:41, 39F
推
03/28 16:04,
6年前
, 40F
03/28 16:04, 40F
推
03/28 17:25,
6年前
, 41F
03/28 17:25, 41F
推
03/28 18:01,
6年前
, 42F
03/28 18:01, 42F
推
03/28 21:57,
6年前
, 43F
03/28 21:57, 43F
推
03/28 21:58,
6年前
, 44F
03/28 21:58, 44F
推
03/28 22:42,
6年前
, 45F
03/28 22:42, 45F
推
03/29 21:43,
6年前
, 46F
03/29 21:43, 46F
推
03/30 11:38,
6年前
, 47F
03/30 11:38, 47F
推
03/30 11:50,
6年前
, 48F
03/30 11:50, 48F
推
03/31 21:21,
6年前
, 49F
03/31 21:21, 49F
推
04/01 10:53,
6年前
, 50F
04/01 10:53, 50F
→
04/03 19:16,
6年前
, 51F
04/03 19:16, 51F
推
04/12 16:06,
6年前
, 52F
04/12 16:06, 52F
討論串 (同標題文章)
完整討論串 (本文為第 5 之 8 篇):
DataScience 近期熱門文章
PTT數位生活區 即時熱門文章