[問題] DRL的time step
由於我們家實驗室目前只有我做RL,所以又上來詢問大家了
問題可能很幼幼班,還請大家見諒QQ
過往我們家的學長都是用DQN來做 (智慧號控相關)
以其中一位學長的論文為例
在action的選擇是延長綠燈時間與否
Δt = 5s, 每5秒就會決定號誌代理的動作
最近在文獻回顧的時候,運用DDPG演算法的paper
在action的選擇是直接決定下一時相的綠燈時間
paper裡面也沒有提及 Δt 的值是多少
這意思是time step並不是等長的嗎? (當然每個episode都是等長的)
如果Δt不是固定的,這樣是可以的嗎?
麻煩大家幫忙解惑了,感謝QQ
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.136.234.247 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1632990062.A.5C7.html
推
09/30 19:26,
3年前
, 1F
09/30 19:26, 1F
→
09/30 19:26,
3年前
, 2F
09/30 19:26, 2F
→
09/30 19:26,
3年前
, 3F
09/30 19:26, 3F
推
09/30 19:30,
3年前
, 4F
09/30 19:30, 4F
y大的意思是該篇paper使用DDPG演算法的action設計嗎
該篇文獻的action設計落在最小綠燈時間~最大綠燈時間這段區間
※ 編輯: chhuang17 (223.136.114.28 臺灣), 09/30/2021 19:36:33
推
09/30 19:48,
3年前
, 5F
09/30 19:48, 5F
→
09/30 19:48,
3年前
, 6F
09/30 19:48, 6F
確實是有文獻輸出的action落在[0,1],定義為綠燈時間縮放因子
不過該篇的Δt是固定的,每隔Δt秒更新時制計畫
這也是我目前論文採用的action設計
這篇貼文只是想釐清一些DDPG的觀念,怕到時候meeting回答不出來><"
※ 編輯: chhuang17 (223.136.114.28 臺灣), 09/30/2021 21:24:57
推
09/30 22:07,
3年前
, 7F
09/30 22:07, 7F
→
09/30 22:07,
3年前
, 8F
09/30 22:07, 8F
討論串 (同標題文章)
完整討論串 (本文為第 1 之 2 篇):
DataScience 近期熱門文章
PTT數位生活區 即時熱門文章