Re: [問題] 時間序列資料的訓練集切法

看板DataScience作者 (死馬)時間5年前 (2019/04/13 08:02), 編輯推噓3(302)
留言5則, 3人參與, 5年前最新討論串2/4 (看更多)
就是那3個字: No Free Lunch 你的問題說簡單也簡單,說困難也難 知道答案的人不會輕易告訴你 因為知識是有價的,而且非常昂貴 你的問題說穿了就是: 「我現在手上有一堆資料,但是我不知道資料之間的關係是什麼」 而事實上你的資料之間的關連,可能是任一種 雖然資料原本被紀錄的方式是按照時間順序記下的 但是這並不代表資料彼此之間在時間軸上就有因果關係 假設你已經知道過去10期的樂透開獎號碼 --> 所以代表有可能預測下一期的開獎號碼? 你覺得這邏輯聽起來怎麼樣? CNN是否能夠預測出來呢?如果CNN不行那RNN呢? 網路架構那麼多種你要每種都試一下嗎? 我隨便都可以推薦你100種喔 我相信可能會有不服氣的鄉民跳出來說「股價變化跟樂透又不一樣,你怎知道不行」 不服氣的人要不要證明看看,「股價的非隨機性」有多少 而這些「非隨機」的成分,在扣掉各種成本之後又可以讓你有多少利潤空間呢 動動腦,有益身心健康~ ㄎㄎㄎ~ ※ 引述《avonasac0800 (Adolph)》之銘言: : 作業系統: Win 10 : 問題類別: RNN/CNN : 使用工具: Python3.6 + Keras/TensorFlow : 問題內容: : 各位大大晚安, : 小弟想請教, 如果我的資料如下所示(共1,000筆, 只是示意): : index date value : 0 20190101 5.1 : 1 20190102 6.6 : 2 20190103 4.8 : 3 20190104 2.7 : ... ... ... : ... ... ... : 999 2021xxxx 12 : 而我要以過去20天的資料預測第21天的數值, 如: : INDEX X Y : 0 [x0, x1, x2... x19] x20 : 1 [x1, x2, x3... x20] x21 : ... ... ... : ... ... ... : 979 [x979, x980... x998] x999 : 假設我要拿總資料的80%來當作訓練集, : 請問我可以將INDEX打亂後再拿裡面的80%出來嗎? : 或者非得拿INDEX[0:784]當作訓練集呢? : 若打亂後再加以訓練, : 其測試集(test)的MAE可以比未打亂的MAE少50%, : 所以才有這樣的疑問, : 我在書上及網路上看到的時間序列模型都是以INDEX[0:784]作為訓練集, : 但它們都沒有提及原因, : 只有一個人說到"你總不會想拿那麼遠的資料做測試吧". : 如果我就是想這樣建模型, 請問會有甚麼潛在的問題嗎? : 請各位大大不吝賜教, 謝謝orz -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 61.231.190.159 ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1555113734.A.5DA.html

04/13 11:25, 5年前 , 1F
有一派認為股價是random walk XD
04/13 11:25, 1F

04/13 18:05, 5年前 , 2F
學長這麼來勁 特別回一篇XD
04/13 18:05, 2F

04/13 18:55, 5年前 , 3F
也許股價並不是pure random,但我想對99%的人來說應該是
04/13 18:55, 3F

04/13 18:55, 5年前 , 4F
pseudo random跑不掉的,也就是說沒有內線就是random XD
04/13 18:55, 4F

04/13 20:24, 5年前 , 5F
小蝦米沒內線 XD
04/13 20:24, 5F
文章代碼(AID): #1SiIS6NQ (DataScience)
文章代碼(AID): #1SiIS6NQ (DataScience)