[問題] DRL的time step

看板DataScience作者chhuang17時間4年前 (2021/09/30 16:21)推噓4(4推 0噓 4→)

留言8則, 1人參與討論串1/2 (看更多)

由於我們家實驗室目前只有我做RL，所以又上來詢問大家了問題可能很幼幼班，還請大家見諒QQ 過往我們家的學長都是用DQN來做 (智慧號控相關) 以其中一位學長的論文為例在action的選擇是延長綠燈時間與否 Δt = 5s, 每5秒就會決定號誌代理的動作最近在文獻回顧的時候，運用DDPG演算法的paper 在action的選擇是直接決定下一時相的綠燈時間 paper裡面也沒有提及 Δt 的值是多少這意思是time step並不是等長的嗎? (當然每個episode都是等長的) 如果Δt不是固定的，這樣是可以的嗎? 麻煩大家幫忙解惑了，感謝QQ -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.136.234.247 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1632990062.A.5C7.html

推

yiche

09/30 19:26, 4年前 , 1^F

09/30 19:26, 1^F

→

yiche

09/30 19:26, 4年前 , 2^F

09/30 19:26, 2^F

→

yiche

09/30 19:26, 4年前 , 3^F

09/30 19:26, 3^F

推

yiche

09/30 19:30, 4年前 , 4^F

09/30 19:30, 4^F

y大的意思是該篇paper使用DDPG演算法的action設計嗎該篇文獻的action設計落在最小綠燈時間~最大綠燈時間這段區間 ※ 編輯: chhuang17 (223.136.114.28 臺灣), 09/30/2021 19:36:33

推

yiche

09/30 19:48, 4年前 , 5^F

09/30 19:48, 5^F

→

yiche

09/30 19:48, 4年前 , 6^F

09/30 19:48, 6^F

確實是有文獻輸出的action落在[0,1]，定義為綠燈時間縮放因子不過該篇的Δt是固定的，每隔Δt秒更新時制計畫這也是我目前論文採用的action設計這篇貼文只是想釐清一些DDPG的觀念，怕到時候meeting回答不出來><" ※ 編輯: chhuang17 (223.136.114.28 臺灣), 09/30/2021 21:24:57

推

yiche

09/30 22:07, 4年前 , 7^F

09/30 22:07, 7^F

→

yiche

09/30 22:07, 4年前 , 8^F

09/30 22:07, 8^F

‣ 返回看板[ DataScience ] 研討

‣ 更多 chhuang17 的文章

文章代碼(AID): #1XLNDkN7 (DataScience)