PTT數位生活區 / DataScience

[問題] 深度強化學習 (MADDPG)

看板DataScience作者chhuang17時間4年前 (2021/07/30 19:47)推噓6(6推 0噓 30→)

留言36則, 2人參與討論串1/1

MADDPG的Action Space必須是連續的不過小弟在翻文獻回顧的時候有些Action Space是離散的上網爬了一下文似乎是利用Gumbel-Softmax去逼近然而這部分我就沒有深究了 (文獻中也沒明說怎麼實作的) 不過我在想實作上能否套用MADDPG的架構 (中心化訓練、去中心化執行) 但實際上在local的Agent是採A2C的方式去選擇Action呢? 麻煩各位前輩指教了謝謝！ -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 140.112.4.209 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1627645660.A.815.html

推

07/31 10:38, 4年前 , 1^F

07/31 10:38, 1^F

→

07/31 10:38, 4年前 , 2^F

07/31 10:38, 2^F

→

07/31 10:38, 4年前 , 3^F

07/31 10:38, 3^F

→

07/31 10:38, 4年前 , 4^F

07/31 10:38, 4^F

→

07/31 10:38, 4年前 , 5^F

07/31 10:38, 5^F

→

07/31 10:38, 4年前 , 6^F

07/31 10:38, 6^F

→

08/01 14:00, 4年前 , 7^F

08/01 14:00, 7^F

→

08/01 14:04, 4年前 , 8^F

08/01 14:04, 8^F

→

08/01 14:04, 4年前 , 9^F

08/01 14:04, 9^F

→

08/01 14:04, 4年前 , 10^F

08/01 14:04, 10^F

了解了，不過我有看到一篇文獻是將binary的action space過sigmoid 該篇文獻最後一層通過y=sigmoid(1000x)，再output出來一樣都是逼近成類似discrete的機率分布想請問這樣的做法跟gumbel-softmax的差異在哪裡呢？或者說有一定要利用gumbel-softmax的理由不可嗎？ ※ 編輯: chhuang17 (140.112.10.31 臺灣), 08/01/2021 15:13:03

推

08/01 16:03, 4年前 , 11^F

08/01 16:03, 11^F

→

08/01 16:03, 4年前 , 12^F

08/01 16:03, 12^F

→

08/01 16:03, 4年前 , 13^F

08/01 16:03, 13^F

推

08/03 08:42, 3年前 , 14^F

08/03 08:42, 14^F

→

08/03 08:42, 3年前 , 15^F

08/03 08:42, 15^F

→

08/03 08:42, 3年前 , 16^F

08/03 08:42, 16^F

→

08/03 08:43, 3年前 , 17^F

08/03 08:43, 17^F

→

08/03 08:43, 3年前 , 18^F

08/03 08:43, 18^F

→

08/03 08:43, 3年前 , 19^F

08/03 08:43, 19^F

推

08/03 08:50, 3年前 , 20^F

08/03 08:50, 20^F

→

08/03 08:50, 3年前 , 21^F

08/03 08:50, 21^F

→

08/03 08:50, 3年前 , 22^F

08/03 08:50, 22^F

→

08/03 08:50, 3年前 , 23^F

08/03 08:50, 23^F

推

08/03 08:59, 3年前 , 24^F

08/03 08:59, 24^F

→

08/03 08:59, 3年前 , 25^F

08/03 08:59, 25^F

→

08/03 08:59, 3年前 , 26^F

08/03 08:59, 26^F

→

08/03 08:59, 3年前 , 27^F

08/03 08:59, 27^F

→

08/03 08:59, 3年前 , 28^F

08/03 08:59, 28^F

→

08/03 08:59, 3年前 , 29^F

08/03 08:59, 29^F

→

08/03 08:59, 3年前 , 30^F

08/03 08:59, 30^F

推

08/03 09:06, 3年前 , 31^F

08/03 09:06, 31^F

→

08/03 09:06, 3年前 , 32^F

08/03 09:06, 32^F

→

08/03 09:06, 3年前 , 33^F

08/03 09:06, 33^F

→

08/03 09:06, 3年前 , 34^F

08/03 09:06, 34^F

→

08/03 09:06, 3年前 , 35^F

08/03 09:06, 35^F

→

08/03 09:06, 3年前 , 36^F

08/03 09:06, 36^F

不好意思，之前一直忘記回覆很感謝兩位的詳細解釋！ ※ 編輯: chhuang17 (223.137.144.83 臺灣), 08/10/2021 01:49:07

‣ 返回看板[ DataScience ] 研討

‣ 更多 chhuang17 的文章

文章代碼(AID): #1X0-RSWL (DataScience)

DataScience 近期熱門文章

2

6

[問題] 文字探勘的特徵選取問題

[ DataScience ]

1周前, 07/01

1

9

[問題] 請問kaggle有商業方案嗎? 它每週gpu的限

[ DataScience ]

4月前, 02/26

4

4

[徵才] 美國Amazon暑期實習生

[ DataScience ]

5月前, 01/23

1

6

[問題] 請教大家有推薦的GPU租用服務嗎?

[ DataScience ]

6月前, 12/20

3

8

[討論] 如何計算兩個不同欄的相似度？

[ DataScience ]

10月前, 09/07

1

4

Re: [問題] 如何在python中訓練好autoencoder?已刪文

[ DataScience ]

11月前, 08/06

2

12

[討論] 有人開始用KAN了嗎？

[ DataScience ]

11月前, 08/04

4

13

Re: [討論] cognitive model/causal ML執行的細節

[ DataScience ]

1年前, 05/15

更多近期熱門文章 >>

PTT數位生活區即時熱門文章

10

46

[討論] 三星真的這麼不堪嗎？

9小時前, 07/12

3

19

Re: [新聞] OPPO 全新 Reno14 手機登台！

11小時前, 07/12

7

9

[支付] bybit卡實測

[ DigiCurrency ]

12小時前, 07/11

3

5

[購機] 手機三選一 A55/R9/U24 pro

12小時前, 07/11

6

69

[菜單] 60K遊戲機

[ PC_Shopping ]

14小時前, 07/11

26

48

[閒聊] [心得] 美亞啟動 AM4 最後的榮光

[ PC_Shopping ]

14小時前, 07/11

1

24

Re: [菜單] 30K高性價3A遊戲機(改單)

[ PC_Shopping ]

15小時前, 07/11

16

39

[問題] 亞太11方案Q1911收到簡訊

16小時前, 07/11

更多即時熱門文章 >>

‣ 返回看板[ DataScience ] 研討

‣ 更多 chhuang17 的文章

文章代碼(AID): #1X0-RSWL (DataScience)