Re: [問題] DRL的time step
回文賺一下P幣
這種東西通常都是假設固定的 舉例像是RL常用來當baseline的mujoco gym
雖然你看到的只是call一個step function所以乍看之下好像就是一個step
可是其實在simulation看起來其實是大約300還是400步左右了
所以如果你把一個simulation step當作一秒的話 那就是delta t=300s的概念
你今天的問題是說如果step不一樣的話可不可以直接做update
理論上其實是不行的 因為你讀的這些RL的方法基本上都是建構在unit timestep
的假設上面 所以你才會看到 t t+1這些subscript
那如果必須要做在continuous的話要怎麼辦呢 這個你找一下continuous time RL
應該就會有你想要的東西了 不過這種東西實際上應用比較少 效果我猜可能也不怎麼樣
回到剛剛的問題
如果你今天是做號誌控制的話 我猜遇到的問題是 可能action是某個phase有幾秒
這樣一來就跟時間相關 你就不知道要怎麼固定每個step的長度對吧
其實這個很簡單 就是在phase執行期間還是可以繼續給action
只是給完以後不會有任何改變而已 就像是走迷宮的時候一直撞牆一樣
你在這個時間點給了這個action 就不會對目前的狀態有改變的情況一樣
當然這樣可能會有很多negative samples 這你就要針對你的情況去做一點處理
如果覺得每秒都要做一次太慢的話 也可以每N秒一次 這樣你的action就會是k*N秒這樣
當然應該有其他更好的做法啦 我只是來騙P幣的
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 24.43.123.79 (美國)
※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1633033012.A.BE0.html
※ 編輯: Dyablo (24.43.123.79 美國), 10/01/2021 04:22:05
推
10/01 14:12,
3年前
, 1F
10/01 14:12, 1F
討論串 (同標題文章)
完整討論串 (本文為第 2 之 2 篇):
DataScience 近期熱門文章
PTT數位生活區 即時熱門文章