[問題] 時間序列資料的訓練集切法
作業系統: Win 10
問題類別: RNN/CNN
使用工具: Python3.6 + Keras/TensorFlow
問題內容:
各位大大晚安,
小弟想請教, 如果我的資料如下所示(共1,000筆, 只是示意):
index date value
0 20190101 5.1
1 20190102 6.6
2 20190103 4.8
3 20190104 2.7
... ... ...
... ... ...
999 2021xxxx 12
而我要以過去20天的資料預測第21天的數值, 如:
INDEX X Y
0 [x0, x1, x2... x19] x20
1 [x1, x2, x3... x20] x21
... ... ...
... ... ...
979 [x979, x980... x998] x999
假設我要拿總資料的80%來當作訓練集,
請問我可以將INDEX打亂後再拿裡面的80%出來嗎?
或者非得拿INDEX[0:784]當作訓練集呢?
若打亂後再加以訓練,
其測試集(test)的MAE可以比未打亂的MAE少50%,
所以才有這樣的疑問,
我在書上及網路上看到的時間序列模型都是以INDEX[0:784]作為訓練集,
但它們都沒有提及原因,
只有一個人說到"你總不會想拿那麼遠的資料做測試吧".
如果我就是想這樣建模型, 請問會有甚麼潛在的問題嗎?
請各位大大不吝賜教, 謝謝orz
--
--
發現不論哪個姑娘的名字,後頭加個".rmvb"或者".avi",看上去頓時就有了一種.....
別樣的曖昧與風騷……
#1EkG2-EJ (Gossiping)
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.32.19.228
※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1554992957.A.F64.html
※ 編輯: avonasac0800 (114.32.19.228), 04/11/2019 22:30:20
※ 編輯: avonasac0800 (114.32.19.228), 04/11/2019 22:30:34
推
04/12 01:15,
5年前
, 1F
04/12 01:15, 1F
→
04/12 01:15,
5年前
, 2F
04/12 01:15, 2F
→
04/12 01:24,
5年前
, 3F
04/12 01:24, 3F
→
04/12 01:24,
5年前
, 4F
04/12 01:24, 4F
→
04/12 01:24,
5年前
, 5F
04/12 01:24, 5F
→
04/12 01:24,
5年前
, 6F
04/12 01:24, 6F
→
04/12 01:26,
5年前
, 7F
04/12 01:26, 7F
謝謝合唱大的分享,
您提到RNN不會紀錄跨index的關係,
那如果我今天是以CNN來訓練這樣的資料
(MAE又會少一個數量級)
請問這樣子打亂後,
模型是不是反而會學到不應該學到的東西呢?
會這樣問是我將0:784打亂後訓練出的CNN模型,
在INDEX 784後的表現比baseline還要差勁的關係。
※ 編輯: avonasac0800 (42.73.12.202), 04/12/2019 08:55:17
推
04/12 11:46,
5年前
, 8F
04/12 11:46, 8F
→
04/12 11:46,
5年前
, 9F
04/12 11:46, 9F
推
04/12 11:52,
5年前
, 10F
04/12 11:52, 10F
→
04/12 11:52,
5年前
, 11F
04/12 11:52, 11F
→
04/12 11:52,
5年前
, 12F
04/12 11:52, 12F
→
04/12 11:53,
5年前
, 13F
04/12 11:53, 13F
推
04/15 00:45,
5年前
, 14F
04/15 00:45, 14F
→
04/15 00:45,
5年前
, 15F
04/15 00:45, 15F
→
04/15 00:45,
5年前
, 16F
04/15 00:45, 16F
→
04/15 00:45,
5年前
, 17F
04/15 00:45, 17F
→
04/15 00:45,
5年前
, 18F
04/15 00:45, 18F
→
04/15 00:45,
5年前
, 19F
04/15 00:45, 19F
→
04/15 00:45,
5年前
, 20F
04/15 00:45, 20F
→
04/15 00:45,
5年前
, 21F
04/15 00:45, 21F
推
04/20 00:33,
5年前
, 22F
04/20 00:33, 22F
→
04/20 00:33,
5年前
, 23F
04/20 00:33, 23F
→
04/20 00:33,
5年前
, 24F
04/20 00:33, 24F
→
04/20 00:34,
5年前
, 25F
04/20 00:34, 25F
→
04/20 00:35,
5年前
, 26F
04/20 00:35, 26F
→
04/20 00:35,
5年前
, 27F
04/20 00:35, 27F
→
04/20 00:37,
5年前
, 28F
04/20 00:37, 28F
→
04/20 00:37,
5年前
, 29F
04/20 00:37, 29F
推
04/20 00:40,
5年前
, 30F
04/20 00:40, 30F
→
04/20 00:40,
5年前
, 31F
04/20 00:40, 31F
→
04/20 00:40,
5年前
, 32F
04/20 00:40, 32F
→
04/23 06:47,
5年前
, 33F
04/23 06:47, 33F
→
04/23 06:47,
5年前
, 34F
04/23 06:47, 34F
→
04/23 06:47,
5年前
, 35F
04/23 06:47, 35F
→
04/23 06:47,
5年前
, 36F
04/23 06:47, 36F
討論串 (同標題文章)
DataScience 近期熱門文章
PTT數位生活區 即時熱門文章