[問題] 為什麼使用local self attention 取代cnn
主要的問題是從這篇問題而來
scaling local self-attention for parameter efficient visual backbones
cnn 模型的參數量與 receptive field 大小成平方關係
而這裡提到因為 self-attention 是一種 parameter-independent 的架構
所以在調整 receptive field 時,參數量不太會增加
我這邊的理解是self-attention 運算時若 receptive field 太大
會導致QKV矩陣跟著變大,參數量也會變大
所以這邊不太明白為什麼self-attention
會比cnn使用的參數量還少
請求各位幫忙指點指點
-----
Sent from JPTT on my iPhone
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 223.137.31.29 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1653221020.A.D42.html
→
05/22 21:01,
2年前
, 1F
05/22 21:01, 1F
→
05/22 21:01,
2年前
, 2F
05/22 21:01, 2F
→
05/22 21:02,
2年前
, 3F
05/22 21:02, 3F
→
05/22 21:02,
2年前
, 4F
05/22 21:02, 4F
→
05/22 22:25,
2年前
, 5F
05/22 22:25, 5F
→
05/22 22:25,
2年前
, 6F
05/22 22:25, 6F
→
05/22 22:25,
2年前
, 7F
05/22 22:25, 7F
→
05/22 23:50,
2年前
, 8F
05/22 23:50, 8F
→
05/22 23:50,
2年前
, 9F
05/22 23:50, 9F
→
05/23 08:46,
2年前
, 10F
05/23 08:46, 10F
→
05/23 12:54,
2年前
, 11F
05/23 12:54, 11F
推
06/01 19:07,
2年前
, 12F
06/01 19:07, 12F
→
06/01 19:07,
2年前
, 13F
06/01 19:07, 13F
→
06/01 19:07,
2年前
, 14F
06/01 19:07, 14F
→
06/01 19:07,
2年前
, 15F
06/01 19:07, 15F
→
06/01 19:07,
2年前
, 16F
06/01 19:07, 16F
→
06/01 19:07,
2年前
, 17F
06/01 19:07, 17F
→
06/01 19:07,
2年前
, 18F
06/01 19:07, 18F
→
06/01 19:07,
2年前
, 19F
06/01 19:07, 19F
→
06/01 19:08,
2年前
, 20F
06/01 19:08, 20F
→
06/01 19:08,
2年前
, 21F
06/01 19:08, 21F
→
06/01 19:08,
2年前
, 22F
06/01 19:08, 22F
→
06/01 19:08,
2年前
, 23F
06/01 19:08, 23F
→
06/01 19:08,
2年前
, 24F
06/01 19:08, 24F
→
06/01 19:08,
2年前
, 25F
06/01 19:08, 25F
→
06/01 19:08,
2年前
, 26F
06/01 19:08, 26F
→
06/01 19:08,
2年前
, 27F
06/01 19:08, 27F
→
06/01 19:08,
2年前
, 28F
06/01 19:08, 28F
DataScience 近期熱門文章
PTT數位生活區 即時熱門文章