PTT
數位生活區
即時熱門文章
24小時內熱門文章
最新文章
熱門看板
看板列表
我的收藏
最近瀏覽
批踢踢 PTT 搜尋引擎
看板
[
DataScience
]
討論串
[問題] 請問有人能用policy gradient的方法(vani
共 2 篇文章
排序:
最舊先
|
最新先
|
留言數
|
推文總分
內容預覽:
開啟
|
關閉
|
只限未讀
首頁
上一頁
1
下一頁
尾頁
#1
[問題] 請問有人能用policy gradient的方法(vani
推噓
0
(0推
0噓 2→
)
留言
2則,0人
參與
, 3年前
最新
作者
yuwenche
(yuwenche)
時間
3年前
發表
(2021/09/03 09:04)
,
編輯
資訊
1篇文章回應此文
1
內文有0個圖片
image
0
內文有0個連結
link
0
內容預覽:
請問有人能用policy gradient的方法(vanilla, TRPO, PPO等)成功解決"MountainCar-v0"問題嗎? 或這問題只能用value learning methods(DQN,DRQN,GAIL等)才能解出?. --.
※
發信站:
批踢踢實業坊(ptt.cc),
來
#2
Re: [問題] 請問有人能用policy gradient的方法(vani
推噓
0
(0推
0噓 9→
)
留言
9則,0人
參與
, 3年前
最新
作者
yiche
(陽光灑肩頭 彷若自由人)
時間
3年前
發表
(2021/09/03 11:22)
, 3年前
編輯
資訊
0篇文章回應此文
0
內文有0個圖片
image
0
內文有1個連結
link
1
內容預覽:
Reinforcement Learning的算法發展或是說解題思維分為三種:. 1. Value based. 2. Policy based. 3. Actor Critic,兼容1+2. action_t = f(state_t). RL要學的正好就是這個function f. 1. 透過最佳
(還有194個字)
首頁
上一頁
1
下一頁
尾頁