Re: [問題] DRL的time step

看板DataScience作者Dyablo (Dyablo)時間4年前 (2021/10/01 04:16)推噓1(1推 0噓 0→)

留言1則, 1人參與討論串2/2 (看更多)

回文賺一下P幣這種東西通常都是假設固定的舉例像是RL常用來當baseline的mujoco gym 雖然你看到的只是call一個step function所以乍看之下好像就是一個step 可是其實在simulation看起來其實是大約300還是400步左右了所以如果你把一個simulation step當作一秒的話那就是delta t=300s的概念你今天的問題是說如果step不一樣的話可不可以直接做update 理論上其實是不行的因為你讀的這些RL的方法基本上都是建構在unit timestep 的假設上面所以你才會看到 t t+1這些subscript 那如果必須要做在continuous的話要怎麼辦呢這個你找一下continuous time RL 應該就會有你想要的東西了不過這種東西實際上應用比較少效果我猜可能也不怎麼樣回到剛剛的問題如果你今天是做號誌控制的話我猜遇到的問題是可能action是某個phase有幾秒這樣一來就跟時間相關你就不知道要怎麼固定每個step的長度對吧其實這個很簡單就是在phase執行期間還是可以繼續給action 只是給完以後不會有任何改變而已就像是走迷宮的時候一直撞牆一樣你在這個時間點給了這個action 就不會對目前的狀態有改變的情況一樣當然這樣可能會有很多negative samples 這你就要針對你的情況去做一點處理如果覺得每秒都要做一次太慢的話也可以每N秒一次這樣你的action就會是k*N秒這樣當然應該有其他更好的做法啦我只是來騙P幣的 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 24.43.123.79 (美國) ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1633033012.A.BE0.html ※ 編輯: Dyablo (24.43.123.79 美國), 10/01/2021 04:22:05