[問題] 請問有人能用policy gradient的方法(vani

看板DataScience作者 (yuwenche)時間3年前 (2021/09/03 09:04), 編輯推噓0(002)
留言2則, 2人參與, 3年前最新討論串1/2 (看更多)
請問有人能用policy gradient的方法(vanilla, TRPO, PPO等)成功解決"MountainCar-v0" 問題嗎? 或這問題只能用value learning methods(DQN,DRQN,GAIL等)才能解出? -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.25.114.162 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1630631046.A.69E.html

09/03 13:55, 3年前 , 1F
這次有獎金嗎?xD
09/03 13:55, 1F

09/04 13:12, 3年前 , 2F
是用TRPO解嗎?
09/04 13:12, 2F
文章代碼(AID): #1XCNI6QU (DataScience)
文章代碼(AID): #1XCNI6QU (DataScience)