討論串(共2篇) - [問題] 請問有人能用policy gradient的方法(vani - 看板DataScience

看板 [ DataScience ]

討論串[問題] 請問有人能用policy gradient的方法(vani

共 2 篇文章

排序：最新先 | 最舊先 | 留言數 | 推文總分

內容預覽：開啟 | 關閉 | 只限未讀

首頁

尾頁

Re: [問題] 請問有人能用policy gradient的方法(vani

推噓0(0推 )留言9則，0人參與作者yiche (陽光灑肩頭彷若自由人)時間4年前 (2021/09/03 11:22)資訊

內容預覽:

Reinforcement Learning的算法發展或是說解題思維分為三種：. 1. Value based. 2. Policy based. 3. Actor Critic，兼容1+2. action_t = f(state_t). RL要學的正好就是這個function f. 1. 透過最佳

(還有194個字)

[問題] 請問有人能用policy gradient的方法(vani

推噓0(0推 )留言2則，0人參與作者yuwenche (yuwenche)時間4年前 (2021/09/03 09:04)資訊

內容預覽:

請問有人能用policy gradient的方法(vanilla, TRPO, PPO等)成功解決"MountainCar-v0"問題嗎? 或這問題只能用value learning methods(DQN,DRQN,GAIL等)才能解出?. --. ※ 發信站: 批踢踢實業坊(ptt.cc), 來

首頁

尾頁