Re: [問題] 請問有人能用policy gradient的方法(vani

看板DataScience作者 (陽光灑肩頭 彷若自由人)時間2年前 (2021/09/03 11:22), 2年前編輯推噓0(009)
留言9則, 1人參與, 2年前最新討論串2/2 (看更多)
Reinforcement Learning的算法發展或是說解題思維分為三種: 1. Value based 2. Policy based 3. Actor Critic,兼容1+2 action_t = f(state_t) RL要學的正好就是這個function f 1. 透過最佳化Q值來得出f 2. 則是直接學這個f 我認為殊途同歸,但各有優劣 我並沒有真的在mountain car這個環境中實作過算法 不過我相信PG算法是做得到的 底下這篇論文,提出了個PG方法於mountain car上實作,並且有做比較實驗,請見論文Fi gure3 也許值得原po研讀一下 https://reurl.cc/VEG7A5 ※ 引述《yuwenche (yuwenche)》之銘言: : 請問有人能用policy gradient的方法(vanilla, TRPO, PPO等)成功解決"MountainCar- v0 : 問題嗎? 或這問題只能用value learning methods(DQN,DRQN,GAIL等)才能解出? -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.37.15.106 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1630639366.A.AE1.html ※ 編輯: yiche (114.37.15.106 臺灣), 09/03/2021 11:24:39

09/04 12:58, 2年前 , 1F
首先感謝所提供的意見及資料. 不過, 這個方法應該不能
09/04 12:58, 1F

09/04 12:59, 2年前 , 2F
算是policy gradient algorithm.如題目所提的 GAIL,基
09/04 12:59, 2F

09/04 13:00, 2年前 , 3F
本上是TRPO和GAN的結合,可用來解出這個問題, 但如果單
09/04 13:00, 3F

09/04 13:00, 2年前 , 4F
用TRPO就解不出來了.
09/04 13:00, 4F

09/04 13:01, 2年前 , 5F
其實作為一個 RL pactitioner, 也不會在意是否為policy
09/04 13:01, 5F

09/04 13:03, 2年前 , 6F
gradient或 MountainCar問題, 只要能解決真實問題就好(
09/04 13:03, 6F

09/04 13:04, 2年前 , 7F
會抓老鼠的就是好貓). 不過真實世界的問題, 往往比能用
09/04 13:04, 7F

09/04 13:09, 2年前 , 8F
數學描述的模型要複雜許多
09/04 13:09, 8F

09/04 13:10, 2年前 , 9F
,因此先驗證演算法和程式沒問題, 底下才會作得扎實.
09/04 13:10, 9F
文章代碼(AID): #1XCPK6hX (DataScience)
文章代碼(AID): #1XCPK6hX (DataScience)