討論串[問題] 請問有人能用policy gradient的方法(vani
共 2 篇文章
首頁
上一頁
1
下一頁
尾頁

推噓0(0推 0噓 2→)留言2則,0人參與, 3年前最新作者yuwenche (yuwenche)時間3年前 (2021/09/03 09:04), 編輯資訊
1
0
0
內容預覽:
請問有人能用policy gradient的方法(vanilla, TRPO, PPO等)成功解決"MountainCar-v0"問題嗎? 或這問題只能用value learning methods(DQN,DRQN,GAIL等)才能解出?. --. 發信站: 批踢踢實業坊(ptt.cc),

推噓0(0推 0噓 9→)留言9則,0人參與, 3年前最新作者yiche (陽光灑肩頭 彷若自由人)時間3年前 (2021/09/03 11:22), 3年前編輯資訊
0
0
1
內容預覽:
Reinforcement Learning的算法發展或是說解題思維分為三種:. 1. Value based. 2. Policy based. 3. Actor Critic,兼容1+2. action_t = f(state_t). RL要學的正好就是這個function f. 1. 透過最佳
(還有194個字)
首頁
上一頁
1
下一頁
尾頁