Re: [問題] 時間序列資料的訓練集切法
就是那3個字: No Free Lunch
你的問題說簡單也簡單,說困難也難
知道答案的人不會輕易告訴你
因為知識是有價的,而且非常昂貴
你的問題說穿了就是:
「我現在手上有一堆資料,但是我不知道資料之間的關係是什麼」
而事實上你的資料之間的關連,可能是任一種
雖然資料原本被紀錄的方式是按照時間順序記下的
但是這並不代表資料彼此之間在時間軸上就有因果關係
假設你已經知道過去10期的樂透開獎號碼 --> 所以代表有可能預測下一期的開獎號碼?
你覺得這邏輯聽起來怎麼樣?
CNN是否能夠預測出來呢?如果CNN不行那RNN呢?
網路架構那麼多種你要每種都試一下嗎?
我隨便都可以推薦你100種喔
我相信可能會有不服氣的鄉民跳出來說「股價變化跟樂透又不一樣,你怎知道不行」
不服氣的人要不要證明看看,「股價的非隨機性」有多少
而這些「非隨機」的成分,在扣掉各種成本之後又可以讓你有多少利潤空間呢
動動腦,有益身心健康~ ㄎㄎㄎ~
※ 引述《avonasac0800 (Adolph)》之銘言:
: 作業系統: Win 10
: 問題類別: RNN/CNN
: 使用工具: Python3.6 + Keras/TensorFlow
: 問題內容:
: 各位大大晚安,
: 小弟想請教, 如果我的資料如下所示(共1,000筆, 只是示意):
: index date value
: 0 20190101 5.1
: 1 20190102 6.6
: 2 20190103 4.8
: 3 20190104 2.7
: ... ... ...
: ... ... ...
: 999 2021xxxx 12
: 而我要以過去20天的資料預測第21天的數值, 如:
: INDEX X Y
: 0 [x0, x1, x2... x19] x20
: 1 [x1, x2, x3... x20] x21
: ... ... ...
: ... ... ...
: 979 [x979, x980... x998] x999
: 假設我要拿總資料的80%來當作訓練集,
: 請問我可以將INDEX打亂後再拿裡面的80%出來嗎?
: 或者非得拿INDEX[0:784]當作訓練集呢?
: 若打亂後再加以訓練,
: 其測試集(test)的MAE可以比未打亂的MAE少50%,
: 所以才有這樣的疑問,
: 我在書上及網路上看到的時間序列模型都是以INDEX[0:784]作為訓練集,
: 但它們都沒有提及原因,
: 只有一個人說到"你總不會想拿那麼遠的資料做測試吧".
: 如果我就是想這樣建模型, 請問會有甚麼潛在的問題嗎?
: 請各位大大不吝賜教, 謝謝orz
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 61.231.190.159
※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1555113734.A.5DA.html
推
04/13 11:25,
5年前
, 1F
04/13 11:25, 1F
推
04/13 18:05,
5年前
, 2F
04/13 18:05, 2F
→
04/13 18:55,
5年前
, 3F
04/13 18:55, 3F
→
04/13 18:55,
5年前
, 4F
04/13 18:55, 4F
推
04/13 20:24,
5年前
, 5F
04/13 20:24, 5F
討論串 (同標題文章)
DataScience 近期熱門文章
PTT數位生活區 即時熱門文章