[討論] 能用A2C解"MountainCar-v0"嗎?

看板DataScience作者yuwenche (yuwenche)時間3年前 (2021/11/24 13:30)推噓0(0推 0噓 0→)

留言0則, 0人參與討論串1/1

目前我可以用proximal policy optimization (PPO) 和trust region policy optimization (TRPO)成功解出MountainCar-v0，但花了好多時間還是沒辦法用 Advantage Actor Critic (A2C) 解出這問題。回顧一下這幾個演算法的重要papers: Sutton et al.在1999年發表了A2C(註一)，這是 policy-based方法的源頭。一直到了2015和 2017年Schulman et al.才發表了TRPO(註二 ) 和PPO(註三) ，這兩個方法簡單講都是限制gradient的變化量，使產生的策略不要變化太大。 A2C用來解CartPole-v0沒問題，因該策略本來就是搖來搖去；但MountainCar-v0的策略就須有持續性，而且它又是sparse reward，因此要用A2C來解大概非常困難，除非把它解除封裝(env.unwrapped) 。歡迎對這方面有研究的人發表一下高見。 (註一) Sutton, Richard S, McAllester, David A, Singh, Satinder P, and Mansour, Yishay. “Policy gradient methods for reinforcement learning with function approximation.” In NIPS, volume 99, pp. 10571063. Citeseer, 1999. (註二) Schulman, John, Levine, Sergey, Moritz, Philipp, Jordan, Michael I, and Abbeel, Pieter. “Trust region policy optimization.” ArXiv Preprint ArXiv:1502.05477, 2015. (註三) Schulman, John, Filip Wolski, Prafulla Dhariwal, Alec Radford, Oleg Klimov. “Proximal Policy Optimization Algorithms.”ArXiv Preprint ArXiv:1707.06347, 2017. -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 218.172.81.85 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1637731839.A.AB3.html