[討論] 能用A2C解"MountainCar-v0"嗎?
目前我可以用proximal policy optimization (PPO) 和trust region policy
optimization (TRPO)成功解出MountainCar-v0,但花了好多時間還是沒辦法用
Advantage Actor Critic (A2C) 解出這問題。
回顧一下這幾個演算法的重要papers: Sutton et al.在1999年發表了A2C(註一),這是
policy-based方法的源頭。一直到了2015和 2017年Schulman et al.才發表了TRPO(註二
) 和PPO(註三) ,這兩個方法簡單講都是限制gradient的變化量,使產生的策略不要變化
太大。
A2C用來解CartPole-v0沒問題,因該策略本來就是搖來搖去;但MountainCar-v0的策略就
須有持續性,而且它又是sparse reward,因此要用A2C來解大概非常困難,除非把它解
除封裝(env.unwrapped) 。
歡迎對這方面有研究的人發表一下高見。
(註一) Sutton, Richard S, McAllester, David A, Singh, Satinder P, and
Mansour, Yishay. “Policy gradient methods for reinforcement learning with
function approximation.” In NIPS, volume 99, pp. 10571063. Citeseer, 1999.
(註二) Schulman, John, Levine, Sergey, Moritz, Philipp, Jordan, Michael I,
and Abbeel, Pieter. “Trust region policy optimization.” ArXiv Preprint
ArXiv:1502.05477, 2015.
(註三) Schulman, John, Filip Wolski, Prafulla Dhariwal, Alec Radford, Oleg
Klimov. “Proximal Policy Optimization Algorithms.”ArXiv Preprint
ArXiv:1707.06347, 2017.
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 218.172.81.85 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1637731839.A.AB3.html
DataScience 近期熱門文章
PTT數位生活區 即時熱門文章