Re: [問題] 時間序列資料的訓練集切法
拙作「機器學習基石」第十六講第十頁有個小故事
https://www.csie.ntu.edu.tw/~htlin/mooc/doc/16_handout.pdf
可能可以幫助到您的困惑。加油!
※ 引述《avonasac0800 (Adolph)》之銘言:
: 作業系統: Win 10
: 問題類別: RNN/CNN
: 使用工具: Python3.6 + Keras/TensorFlow
: 問題內容:
: 各位大大晚安,
: 小弟想請教, 如果我的資料如下所示(共1,000筆, 只是示意):
: index date value
: 0 20190101 5.1
: 1 20190102 6.6
: 2 20190103 4.8
: 3 20190104 2.7
: ... ... ...
: ... ... ...
: 999 2021xxxx 12
: 而我要以過去20天的資料預測第21天的數值, 如:
: INDEX X Y
: 0 [x0, x1, x2... x19] x20
: 1 [x1, x2, x3... x20] x21
: ... ... ...
: ... ... ...
: 979 [x979, x980... x998] x999
: 假設我要拿總資料的80%來當作訓練集,
: 請問我可以將INDEX打亂後再拿裡面的80%出來嗎?
: 或者非得拿INDEX[0:784]當作訓練集呢?
: 若打亂後再加以訓練,
: 其測試集(test)的MAE可以比未打亂的MAE少50%,
: 所以才有這樣的疑問,
: 我在書上及網路上看到的時間序列模型都是以INDEX[0:784]作為訓練集,
: 但它們都沒有提及原因,
: 只有一個人說到"你總不會想拿那麼遠的資料做測試吧".
: 如果我就是想這樣建模型, 請問會有甚麼潛在的問題嗎?
: 請各位大大不吝賜教, 謝謝orz
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 1.171.160.250
※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1555177447.A.FA9.html
推
04/14 02:10,
5年前
, 1F
04/14 02:10, 1F
推
04/14 07:28,
5年前
, 2F
04/14 07:28, 2F
推
04/14 08:15,
5年前
, 3F
04/14 08:15, 3F
推
04/14 09:34,
5年前
, 4F
04/14 09:34, 4F
推
04/14 09:53,
5年前
, 5F
04/14 09:53, 5F
推
04/14 10:35,
5年前
, 6F
04/14 10:35, 6F
→
04/14 13:35,
5年前
, 7F
04/14 13:35, 7F
推
04/14 16:22,
5年前
, 8F
04/14 16:22, 8F
推
04/14 16:37,
5年前
, 9F
04/14 16:37, 9F
推
04/14 21:46,
5年前
, 10F
04/14 21:46, 10F
推
04/15 23:57,
5年前
, 11F
04/15 23:57, 11F
推
04/17 00:33,
5年前
, 12F
04/17 00:33, 12F
推
04/17 11:21,
5年前
, 13F
04/17 11:21, 13F
→
04/17 15:41,
5年前
, 14F
04/17 15:41, 14F
推
04/19 10:54,
5年前
, 15F
04/19 10:54, 15F
推
04/19 13:55,
5年前
, 16F
04/19 13:55, 16F
推
04/24 00:41,
5年前
, 17F
04/24 00:41, 17F
推
04/25 20:46,
5年前
, 18F
04/25 20:46, 18F
推
04/30 18:51,
5年前
, 19F
04/30 18:51, 19F
推
06/12 22:41,
5年前
, 20F
06/12 22:41, 20F
推
07/19 20:27,
5年前
, 21F
07/19 20:27, 21F
討論串 (同標題文章)
DataScience 近期熱門文章
PTT數位生活區 即時熱門文章