[討論] 股票當沖模型是否符合MDP的特性?

看板DataScience作者 (yuwenche)時間1年前 (2023/10/23 14:05), 編輯推噓5(5042)
留言47則, 10人參與, 10月前最新討論串1/1
我有一個股票當沖模型:狀態有6個state,分別為 t、t-1、t-2、t-3的價格對昨日收盤 的值取對數,即 log(Pt/Pc)、log(Pt-1/Pc)、 log(Pt-2/Pc) 、 log(Pt-3/Pc);另外兩 個則是t時間的價格(標準化)和部位(-1、0、+1)。動作有三個:買進(+1) 、賣出(-1) 、不動作(0) 。 教科書說MDP(Markov Decision Process)是強化學習(Reinforcement Learning)的一項重 要性質,因為有了這個性質,我們才能只針對當前的狀態作出動作選擇,而無需去考慮以 前的狀態。請問這個模型是否符合MDP的特性? 請不要拿『股票漲跌可預測嗎?』這種哲學問題,或『影響股價的因素不僅是歷史股價, 還有更多的因素,如公司的近况、總經數據 …』這類社會科學的觀點來討論,請針對數學 模型來討論,謝謝。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 111.241.21.152 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1698041151.A.491.html

10/23 14:20, 1年前 , 1F
這類文獻應該很多吧
10/23 14:20, 1F

10/25 22:10, 1年前 , 2F
你感覺好像沒有很懂mdp
10/25 22:10, 2F

10/27 13:55, 1年前 , 3F
POMDP
10/27 13:55, 3F

10/27 18:35, 1年前 , 4F
同二樓
10/27 18:35, 4F

10/28 10:44, 1年前 , 5F
為啥沒有很懂 定義都說出來了 只是不知道自己的state有沒
10/28 10:44, 5F

10/28 10:44, 1年前 , 6F
有符合不是嗎
10/28 10:44, 6F

11/01 15:23, 1年前 , 7F
懂的話就直接拿price data驗證了,不會在這裡問
11/01 15:23, 7F

11/07 09:26, 1年前 , 8F
如果真懂就寫些有意義的東西,只是擺出一付冷嘲的態度
11/07 09:26, 8F

11/07 09:26, 1年前 , 9F
不代表你就懂。That sucks.
11/07 09:26, 9F

11/07 16:09, 1年前 , 10F
我沒有冷嘲熱諷啊 我只有說你好像沒有很懂
11/07 16:09, 10F

11/07 16:11, 1年前 , 11F
你要不要從最基礎的開始 像是寫一下你覺得State Acti
11/07 16:11, 11F

11/07 16:11, 1年前 , 12F
on Transition是什麼 連這種effort都沒有不就只是伸
11/07 16:11, 12F

11/07 16:11, 1年前 , 13F
手牌想要別人告訴你答案嗎
11/07 16:11, 13F

11/07 16:13, 1年前 , 14F
你今天做了action 那transition是什麼 reward是什麼
11/07 16:13, 14F

11/07 16:13, 1年前 , 15F
這種應該很基本的吧 寫得出來不就知道了嗎
11/07 16:13, 15F

11/07 16:24, 1年前 , 16F
唉算了直接講結論 你做了這些action可是下一個state
11/07 16:24, 16F

11/07 16:24, 1年前 , 17F
會因為你做的action改變嗎 不會啊 這樣你要說他是MDP
11/07 16:24, 17F

11/07 16:24, 1年前 , 18F
嗎 可能吧 可是這種情況下你做什麼action根本就沒差
11/07 16:24, 18F

11/07 16:24, 1年前 , 19F
11/07 16:24, 19F

11/07 16:24, 1年前 , 20F
問題就是你的state不應該設定成什麼t t-1之類的價格
11/07 16:24, 20F

11/07 16:24, 1年前 , 21F
而是應該是你的action可以影響的 如果你有好好想過的
11/07 16:24, 21F

11/07 16:24, 1年前 , 22F
話大概就不會問什麼是不是MDP的問題了吧
11/07 16:24, 22F

11/11 22:15, 1年前 , 23F
樓上真好心。這裡補充一下,其實action不影響下一個
11/11 22:15, 23F

11/11 22:17, 1年前 , 24F
state,其實問題就退化成bandit problem,算MDP的特例
11/11 22:17, 24F

11/11 22:19, 1年前 , 25F
這個問題其實照MDP的定義,然後拿data驗一下就有答案了
11/11 22:19, 25F

11/11 22:24, 1年前 , 26F
但要用bandit的方式做成strategy還要一些前提成立才行
11/11 22:24, 26F

11/11 22:25, 1年前 , 27F
最後這裡加點有意義的東西: 網路上沒有人義務教會你
11/11 22:25, 27F

11/12 21:38, 1年前 , 28F
真的
11/12 21:38, 28F

11/16 12:28, 1年前 , 29F
說實在,沒有社經上的假設,那模型就沒辦法應用
11/16 12:28, 29F

12/02 09:00, 11月前 , 30F
我已經近一個月沒上這個頻道了,直到昨天才看到留言。
12/02 09:00, 30F

12/02 09:01, 11月前 , 31F
實際上github或網路上已有不少類似的例子,大部分也都
12/02 09:01, 31F

12/02 09:03, 11月前 , 32F
採取時間差分的作法(t,t-1,t-2…) ,難道他們都錯了嗎?
12/02 09:03, 32F

12/02 09:05, 11月前 , 33F
股價本身或許不具MDP特性,但幾個相連的股價至少就是
12/02 09:05, 33F

12/02 09:06, 11月前 , 34F
POMDP,這就是將non-MDP轉換為MDP的手段之一。另外,
12/02 09:06, 34F

12/02 09:07, 11月前 , 35F
agent是藉著跟環境(state)互動改變自身的參數,而對下一
12/02 09:07, 35F

12/02 09:09, 11月前 , 36F
次作出最好的action,它是沒辦法改變state狀態的。最後
12/02 09:09, 36F

12/02 09:10, 11月前 , 37F
,這個題目的困難程度遠超過gym的環境,因它是一個非穩
12/02 09:10, 37F

12/02 09:11, 11月前 , 38F
態(non-stationary)的環境。
12/02 09:11, 38F

12/03 08:35, 11月前 , 39F
同二樓~
12/03 08:35, 39F

12/30 11:23, 10月前 , 40F
以前我作過類似的議題 就單純分析K線型態預測漲跌
12/30 11:23, 40F

12/30 11:26, 10月前 , 41F
記得最後認為是交易價值太低放棄 沒有正式回測過
12/30 11:26, 41F

12/30 11:29, 10月前 , 42F
我以前只會算馬可夫鍊...現在也是 MDP是看這篇才知道
12/30 11:29, 42F

12/30 11:30, 10月前 , 43F
回到問題 我認同2樓說要找action可以影響的state
12/30 11:30, 43F

12/30 11:31, 10月前 , 44F
因為這才比較像普通人說的當沖交易實況
12/30 11:31, 44F

12/30 11:33, 10月前 , 45F
如果是市場主力想操控股價 那引入過去價格當state OK
12/30 11:33, 45F

12/30 11:38, 10月前 , 46F
最重要的你既然有模型有策略 直接回測看績效不就好了
12/30 11:38, 46F

12/30 11:39, 10月前 , 47F
你要是有回測結果 可以討論的題材會比較多
12/30 11:39, 47F
文章代碼(AID): #1bDWq_IH (DataScience)
文章代碼(AID): #1bDWq_IH (DataScience)