[問題] 深度強化學習 (MADDPG)
MADDPG的Action Space必須是連續的
不過小弟在翻文獻回顧的時候
有些Action Space是離散的
上網爬了一下文 似乎是利用Gumbel-Softmax去逼近
然而這部分我就沒有深究了 (文獻中也沒明說怎麼實作的)
不過我在想 實作上能否套用MADDPG的架構
(中心化訓練、去中心化執行)
但實際上在local的Agent是採A2C的方式去選擇Action呢?
麻煩各位前輩指教了 謝謝!
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 140.112.4.209 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1627645660.A.815.html
推
07/31 10:38,
3年前
, 1F
07/31 10:38, 1F
→
07/31 10:38,
3年前
, 2F
07/31 10:38, 2F
→
07/31 10:38,
3年前
, 3F
07/31 10:38, 3F
→
07/31 10:38,
3年前
, 4F
07/31 10:38, 4F
→
07/31 10:38,
3年前
, 5F
07/31 10:38, 5F
→
07/31 10:38,
3年前
, 6F
07/31 10:38, 6F
→
08/01 14:00,
3年前
, 7F
08/01 14:00, 7F
→
08/01 14:04,
3年前
, 8F
08/01 14:04, 8F
→
08/01 14:04,
3年前
, 9F
08/01 14:04, 9F
→
08/01 14:04,
3年前
, 10F
08/01 14:04, 10F
了解了,不過我有看到一篇文獻是將binary的action space過sigmoid
該篇文獻最後一層通過y=sigmoid(1000x),再output出來
一樣都是逼近成類似discrete的機率分布
想請問這樣的做法跟gumbel-softmax的差異在哪裡呢?
或者說 有一定要利用gumbel-softmax的理由不可嗎?
※ 編輯: chhuang17 (140.112.10.31 臺灣), 08/01/2021 15:13:03
推
08/01 16:03,
3年前
, 11F
08/01 16:03, 11F
→
08/01 16:03,
3年前
, 12F
08/01 16:03, 12F
→
08/01 16:03,
3年前
, 13F
08/01 16:03, 13F
推
08/03 08:42,
3年前
, 14F
08/03 08:42, 14F
→
08/03 08:42,
3年前
, 15F
08/03 08:42, 15F
→
08/03 08:42,
3年前
, 16F
08/03 08:42, 16F
→
08/03 08:43,
3年前
, 17F
08/03 08:43, 17F
→
08/03 08:43,
3年前
, 18F
08/03 08:43, 18F
→
08/03 08:43,
3年前
, 19F
08/03 08:43, 19F
推
08/03 08:50,
3年前
, 20F
08/03 08:50, 20F
→
08/03 08:50,
3年前
, 21F
08/03 08:50, 21F
→
08/03 08:50,
3年前
, 22F
08/03 08:50, 22F
→
08/03 08:50,
3年前
, 23F
08/03 08:50, 23F
推
08/03 08:59,
3年前
, 24F
08/03 08:59, 24F
→
08/03 08:59,
3年前
, 25F
08/03 08:59, 25F
→
08/03 08:59,
3年前
, 26F
08/03 08:59, 26F
→
08/03 08:59,
3年前
, 27F
08/03 08:59, 27F
→
08/03 08:59,
3年前
, 28F
08/03 08:59, 28F
→
08/03 08:59,
3年前
, 29F
08/03 08:59, 29F
→
08/03 08:59,
3年前
, 30F
08/03 08:59, 30F
推
08/03 09:06,
3年前
, 31F
08/03 09:06, 31F
→
08/03 09:06,
3年前
, 32F
08/03 09:06, 32F
→
08/03 09:06,
3年前
, 33F
08/03 09:06, 33F
→
08/03 09:06,
3年前
, 34F
08/03 09:06, 34F
→
08/03 09:06,
3年前
, 35F
08/03 09:06, 35F
→
08/03 09:06,
3年前
, 36F
08/03 09:06, 36F
不好意思,之前一直忘記回覆
很感謝兩位的詳細解釋!
※ 編輯: chhuang17 (223.137.144.83 臺灣), 08/10/2021 01:49:07
DataScience 近期熱門文章
PTT數位生活區 即時熱門文章