Re: [問題] 請問有人能用policy gradient的方法(vani
Reinforcement Learning的算法發展或是說解題思維分為三種:
1. Value based
2. Policy based
3. Actor Critic,兼容1+2
action_t = f(state_t)
RL要學的正好就是這個function f
1. 透過最佳化Q值來得出f
2. 則是直接學這個f
我認為殊途同歸,但各有優劣
我並沒有真的在mountain car這個環境中實作過算法
不過我相信PG算法是做得到的
底下這篇論文,提出了個PG方法於mountain car上實作,並且有做比較實驗,請見論文Fi
gure3
也許值得原po研讀一下
https://reurl.cc/VEG7A5
※ 引述《yuwenche (yuwenche)》之銘言:
: 請問有人能用policy gradient的方法(vanilla, TRPO, PPO等)成功解決"MountainCar-
v0
: 問題嗎? 或這問題只能用value learning methods(DQN,DRQN,GAIL等)才能解出?
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.37.15.106 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1630639366.A.AE1.html
※ 編輯: yiche (114.37.15.106 臺灣), 09/03/2021 11:24:39
→
09/04 12:58,
3年前
, 1F
09/04 12:58, 1F
→
09/04 12:59,
3年前
, 2F
09/04 12:59, 2F
→
09/04 13:00,
3年前
, 3F
09/04 13:00, 3F
→
09/04 13:00,
3年前
, 4F
09/04 13:00, 4F
→
09/04 13:01,
3年前
, 5F
09/04 13:01, 5F
→
09/04 13:03,
3年前
, 6F
09/04 13:03, 6F
→
09/04 13:04,
3年前
, 7F
09/04 13:04, 7F
→
09/04 13:09,
3年前
, 8F
09/04 13:09, 8F
→
09/04 13:10,
3年前
, 9F
09/04 13:10, 9F
討論串 (同標題文章)
本文引述了以下文章的的內容:
完整討論串 (本文為第 2 之 2 篇):
DataScience 近期熱門文章
PTT數位生活區 即時熱門文章