[問題] 深度強化學習 (MADDPG)

看板DataScience作者時間2年前 (2021/07/30 19:47), 2年前編輯推噓6(6030)
留言36則, 2人參與, 2年前最新討論串1/1
MADDPG的Action Space必須是連續的 不過小弟在翻文獻回顧的時候 有些Action Space是離散的 上網爬了一下文 似乎是利用Gumbel-Softmax去逼近 然而這部分我就沒有深究了 (文獻中也沒明說怎麼實作的) 不過我在想 實作上能否套用MADDPG的架構 (中心化訓練、去中心化執行) 但實際上在local的Agent是採A2C的方式去選擇Action呢? 麻煩各位前輩指教了 謝謝! -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 140.112.4.209 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1627645660.A.815.html

07/31 10:38, 2年前 , 1F
Gumbel-softmax主要作用在取樣的時候,往往我們在取樣
07/31 10:38, 1F

07/31 10:38, 2年前 , 2F
的時候都是用random choice或是加入機率分佈因素再取arg
07/31 10:38, 2F

07/31 10:38, 2年前 , 3F
max,但是如果你要在你整個網路訓練過程中加入就會導致
07/31 10:38, 3F

07/31 10:38, 2年前 , 4F
你的反向傳播失效,因為這兩個步驟是不可微的,這樣你就
07/31 10:38, 4F

07/31 10:38, 2年前 , 5F
沒辦法傳導你的梯度,所以用gumbel softmx再參數化去逼
07/31 10:38, 5F

07/31 10:38, 2年前 , 6F
近random choice的取樣效果同時讓整個過程可微。
07/31 10:38, 6F

08/01 14:00, 2年前 , 7F
不知道樓上在講什麼
08/01 14:00, 7F

08/01 14:04, 2年前 , 8F
gumbel softmax就只是個trick 把原本的probablity
08/01 14:04, 8F

08/01 14:04, 2年前 , 9F
output 除上很小的"tau" 過“可微”的softmax之後機
08/01 14:04, 9F

08/01 14:04, 2年前 , 10F
率分佈很像是discrete的
08/01 14:04, 10F
了解了,不過我有看到一篇文獻是將binary的action space過sigmoid 該篇文獻最後一層通過y=sigmoid(1000x),再output出來 一樣都是逼近成類似discrete的機率分布 想請問這樣的做法跟gumbel-softmax的差異在哪裡呢? 或者說 有一定要利用gumbel-softmax的理由不可嗎? ※ 編輯: chhuang17 (140.112.10.31 臺灣), 08/01/2021 15:13:03

08/01 16:03, 2年前 , 11F
這個深度學習的問題沒有正確答案 只能都試試看最後在
08/01 16:03, 11F

08/01 16:03, 2年前 , 12F
paper唬爛一個答案 唯一比較客觀分析還是看function
08/01 16:03, 12F

08/01 16:03, 2年前 , 13F
斜率 比較兩者在你的dataset剃度的問題
08/01 16:03, 13F

08/03 08:42, 2年前 , 14F
確實有一些前提沒有補充到,想說讓原PO去查文獻大概就
08/03 08:42, 14F

08/03 08:42, 2年前 , 15F
明白了。首先,MADDPG整體架構還是一個DDPG,只是擴展
08/03 08:42, 15F

08/03 08:42, 2年前 , 16F
成考量multi-agent的狀況。然後考量傳統DPG採用待優化po
08/03 08:42, 16F

08/03 08:43, 2年前 , 17F
licy跟取樣policy不同以解決exploration的問題,DDPG則
08/03 08:43, 17F

08/03 08:43, 2年前 , 18F
是加入reparameterization(再參數化)的技巧克服他,這
08/03 08:43, 18F

08/03 08:43, 2年前 , 19F
樣就不用再優化跟取樣用不同的policy。
08/03 08:43, 19F

08/03 08:50, 2年前 , 20F
另外,gumbel sofmax輸入也是離散分佈,如果用輸出也說
08/03 08:50, 20F

08/03 08:50, 2年前 , 21F
是離散會很容易誤導就是了。實際上應該是加入了gumbel d
08/03 08:50, 21F

08/03 08:50, 2年前 , 22F
istribution後除以一個tau再做softmax,這樣就可以用tau
08/03 08:50, 22F

08/03 08:50, 2年前 , 23F
這個超參控制取樣的soft程度而已。
08/03 08:50, 23F

08/03 08:59, 2年前 , 24F
這樣就可以讓整體保有隨機性,而gumbel分佈就是很好描述
08/03 08:59, 24F

08/03 08:59, 2年前 , 25F
有極值的分佈,所以用再分類再取樣的效果就很合理,藉以
08/03 08:59, 25F

08/03 08:59, 2年前 , 26F
達到我們想優化的是P(zlx)這樣的空間分佈,可以參考VAE
08/03 08:59, 26F

08/03 08:59, 2年前 , 27F
的文獻實際上VAE也是這樣的技巧取樣,實際上可以去看一
08/03 08:59, 27F

08/03 08:59, 2年前 , 28F
下VI的推導,VAE算是一個很有統計學習加上隨機程序的模
08/03 08:59, 28F

08/03 08:59, 2年前 , 29F
型,整體推導流程也很優美,DDPG的作者也是借鑒這樣的
08/03 08:59, 29F

08/03 08:59, 2年前 , 30F
思路來做policy過程的取樣的。
08/03 08:59, 30F

08/03 09:06, 2年前 , 31F
然後再回到原PO sigmoid的問題上,我們如果假設輸入是服
08/03 09:06, 31F

08/03 09:06, 2年前 , 32F
從一個Bernoulli distribution的,那sigmoid跟 softmax
08/03 09:06, 32F

08/03 09:06, 2年前 , 33F
就是等價的,實際MADDPG的作者再實現上就是用這種技巧,
08/03 09:06, 33F

08/03 09:06, 2年前 , 34F
然後我看代碼其實也是再參數化的過程(sigmoid後一樣加上
08/03 09:06, 34F

08/03 09:06, 2年前 , 35F
random uniform distribution),不知道有沒有回答你的
08/03 09:06, 35F

08/03 09:06, 2年前 , 36F
問題。
08/03 09:06, 36F
文章代碼(AID): #1X0-RSWL (DataScience)
文章代碼(AID): #1X0-RSWL (DataScience)