Re: [問題] DRL的time step

看板DataScience作者 (Dyablo)時間3年前 (2021/10/01 04:16), 3年前編輯推噓1(100)
留言1則, 1人參與, 3年前最新討論串2/2 (看更多)
回文賺一下P幣 這種東西通常都是假設固定的 舉例像是RL常用來當baseline的mujoco gym 雖然你看到的只是call一個step function所以乍看之下好像就是一個step 可是其實在simulation看起來其實是大約300還是400步左右了 所以如果你把一個simulation step當作一秒的話 那就是delta t=300s的概念 你今天的問題是說如果step不一樣的話可不可以直接做update 理論上其實是不行的 因為你讀的這些RL的方法基本上都是建構在unit timestep 的假設上面 所以你才會看到 t t+1這些subscript 那如果必須要做在continuous的話要怎麼辦呢 這個你找一下continuous time RL 應該就會有你想要的東西了 不過這種東西實際上應用比較少 效果我猜可能也不怎麼樣 回到剛剛的問題 如果你今天是做號誌控制的話 我猜遇到的問題是 可能action是某個phase有幾秒 這樣一來就跟時間相關 你就不知道要怎麼固定每個step的長度對吧 其實這個很簡單 就是在phase執行期間還是可以繼續給action 只是給完以後不會有任何改變而已 就像是走迷宮的時候一直撞牆一樣 你在這個時間點給了這個action 就不會對目前的狀態有改變的情況一樣 當然這樣可能會有很多negative samples 這你就要針對你的情況去做一點處理 如果覺得每秒都要做一次太慢的話 也可以每N秒一次 這樣你的action就會是k*N秒這樣 當然應該有其他更好的做法啦 我只是來騙P幣的 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 24.43.123.79 (美國) ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1633033012.A.BE0.html ※ 編輯: Dyablo (24.43.123.79 美國), 10/01/2021 04:22:05

10/01 14:12, 3年前 , 1F
感謝大大的回覆!!
10/01 14:12, 1F
文章代碼(AID): #1XLXiqlW (DataScience)
討論串 (同標題文章)
文章代碼(AID): #1XLXiqlW (DataScience)