[問題] 為什麼使用local self attention 取代cnn

看板DataScience作者 (馬奇亞米)時間2年前 (2022/05/22 20:03), 編輯推噓1(1027)
留言28則, 4人參與, 2年前最新討論串1/1
主要的問題是從這篇問題而來 scaling local self-attention for parameter efficient visual backbones cnn 模型的參數量與 receptive field 大小成平方關係 而這裡提到因為 self-attention 是一種 parameter-independent 的架構 所以在調整 receptive field 時,參數量不太會增加 我這邊的理解是self-attention 運算時若 receptive field 太大 會導致QKV矩陣跟著變大,參數量也會變大 所以這邊不太明白為什麼self-attention 會比cnn使用的參數量還少 請求各位幫忙指點指點 ----- Sent from JPTT on my iPhone -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 223.137.31.29 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1653221020.A.D42.html

05/22 21:01, 2年前 , 1F
你沒睡醒吧,receptive field 變大可是 feature
05/22 21:01, 1F

05/22 21:01, 2年前 , 2F
dimension不會變多
05/22 21:01, 2F

05/22 21:02, 2年前 , 3F
score計算成本才會隨著square of receptive field
05/22 21:02, 3F

05/22 21:02, 2年前 , 4F
增長
05/22 21:02, 4F

05/22 22:25, 2年前 , 5F
感謝您,雖然我這邊還是沒有很懂.. 因為我對nlp研究比
05/22 22:25, 5F

05/22 22:25, 2年前 , 6F
較多,對cv其實不太了解,可能我再多看一些基礎的知識
05/22 22:25, 6F

05/22 22:25, 2年前 , 7F
..
05/22 22:25, 7F

05/22 23:50, 2年前 , 8F
就像nlp裡面的transformer,你序列拉長qkv計算成本增
05/22 23:50, 8F

05/22 23:50, 2年前 , 9F
加但參數量不變
05/22 23:50, 9F

05/23 08:46, 2年前 , 10F
oh ok!我知道了,感謝您
05/23 08:46, 10F

05/23 12:54, 2年前 , 11F
這邊的參數指模型自帶的參數 QKV矩陣不是
05/23 12:54, 11F

06/01 19:07, 2年前 , 12F
2. 基本上 self-attention,的輸入經過幾次網路轉成
06/01 19:07, 12F

06/01 19:07, 2年前 , 13F
QKV,所有的參數都在形成 QKV 前發生了。所以所有的
06/01 19:07, 13F

06/01 19:07, 2年前 , 14F
輸入都要做 QKV 轉換。然後有了 QKV 後,我們會去做
06/01 19:07, 14F

06/01 19:07, 2年前 , 15F
self-attention,這時候的 self-attention 都是數學
06/01 19:07, 15F

06/01 19:07, 2年前 , 16F
定義計算,沒有參數。如果一個 self-attention 沒有
06/01 19:07, 16F

06/01 19:07, 2年前 , 17F
全域 attent,而有 receptive field,這時候如果 rec
06/01 19:07, 17F

06/01 19:07, 2年前 , 18F
eptive field 比較小,只是 self-attention 少一點計
06/01 19:07, 18F

06/01 19:07, 2年前 , 19F
算,這些都是關於計算量,跟參數無關。
06/01 19:07, 19F

06/01 19:08, 2年前 , 20F
1. CNN 的卷積功能參數是記錄在 filter 的內容,所以
06/01 19:08, 20F

06/01 19:08, 2年前 , 21F
只跟 receptive field 有關。我們常常說,參數量跟 r
06/01 19:08, 21F

06/01 19:08, 2年前 , 22F
eceptive field 的大小平方成正比。正確來說是:與re
06/01 19:08, 22F

06/01 19:08, 2年前 , 23F
ceptive field 的大小成正比。比如 filter 是 (3, 3)
06/01 19:08, 23F

06/01 19:08, 2年前 , 24F
就是守 3x3 的範圍,(5, 5) 就是守 5x5 的範圍。所
06/01 19:08, 24F

06/01 19:08, 2年前 , 25F
以是跟 “邊” 成平方比例,或尺寸 9、25 成正比。標
06/01 19:08, 25F

06/01 19:08, 2年前 , 26F
準 CNN 卷積層的參數量是 (輸入層數 x L x L x filt
06/01 19:08, 26F

06/01 19:08, 2年前 , 27F
er 數量 N + filter 數量),當我們用了 (L, L)的
06/01 19:08, 27F

06/01 19:08, 2年前 , 28F
filter.
06/01 19:08, 28F
文章代碼(AID): #1YYYQSr2 (DataScience)
文章代碼(AID): #1YYYQSr2 (DataScience)