[問題] 請問有人能用policy gradient的方法(vani
請問有人能用policy gradient的方法(vanilla, TRPO, PPO等)成功解決"MountainCar-v0"
問題嗎? 或這問題只能用value learning methods(DQN,DRQN,GAIL等)才能解出?
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.25.114.162 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1630631046.A.69E.html
→
09/03 13:55,
3年前
, 1F
09/03 13:55, 1F
→
09/04 13:12,
3年前
, 2F
09/04 13:12, 2F
討論串 (同標題文章)
以下文章回應了本文:
完整討論串 (本文為第 1 之 2 篇):
DataScience 近期熱門文章
PTT數位生活區 即時熱門文章