[問題] Convolution層之間的activation function

看板DataScience作者 (屁眼火炬)時間6年前 (2018/04/21 18:13), 編輯推噓17(17036)
留言53則, 9人參與, 6年前最新討論串1/1
問題類別:CNN 想請問一下convolution層之間加activation function的意義是什麼? 我不太清楚 如果兩個convolution之間沒有activation function不也可以運作嗎? -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 223.136.148.239 ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1524305591.A.0A5.html

04/21 18:38, 6年前 , 1F
這個概念似乎是從神經科學來的?
04/21 18:38, 1F

04/21 18:40, 6年前 , 2F
沒有activation function 那跟連續的矩陣乘法差在哪呢
04/21 18:40, 2F

04/21 18:40, 6年前 , 3F
04/21 18:40, 3F

04/21 18:40, 6年前 , 4F
或許是提供了非線性的概念吧
04/21 18:40, 4F

04/21 18:51, 6年前 , 5F
這題目蠻有趣的耶 雖然conv間是線性
04/21 18:51, 5F

04/21 18:52, 6年前 , 6F
但是max-pooling就提供了non-linear 我能想像的就是
04/21 18:52, 6F

04/21 18:53, 6年前 , 7F
在cnn的概念上我們每一層都還是某種抽象程度的圖像
04/21 18:53, 7F

04/21 18:53, 6年前 , 8F
所以我們讓每個"pixel"都還是>=0才有物理意義
04/21 18:53, 8F

04/21 18:53, 6年前 , 9F
不知道有沒有高手有更理論上的解釋?
04/21 18:53, 9F

04/21 19:03, 6年前 , 10F

04/21 19:04, 6年前 , 11F
以李弘毅這則影片的角度來看 似乎max在擬合函數的
04/21 19:04, 11F

04/21 19:04, 6年前 , 12F
能力應該是弱於relu的
04/21 19:04, 12F

04/21 20:19, 6年前 , 13F
先去看logistic regression....
04/21 20:19, 13F

04/21 23:08, 6年前 , 14F
同樓上,非線性是很重要的基本概念...
04/21 23:08, 14F

04/21 23:09, 6年前 , 15F
真實世界的模型幾乎不會有線性的
04/21 23:09, 15F

04/22 06:12, 6年前 , 16F
1樓是對的。把NN想成一連串的合成函數,也就是線性函
04/22 06:12, 16F

04/22 06:12, 6年前 , 17F
數->激活函數->線性函數->激活函數->...如果激活函數
04/22 06:12, 17F

04/22 06:12, 6年前 , 18F
都是線性,那NN擬合出來就是線性的。
04/22 06:12, 18F

04/22 07:02, 6年前 , 19F
04/22 07:02, 19F

04/22 07:03, 6年前 , 20F
各種結構的review 線性比非線性網路低了7%準確度
04/22 07:03, 20F

04/22 11:54, 6年前 , 21F
沒人能回答我問題嗎QQ
04/22 11:54, 21F

04/22 14:22, 6年前 , 22F
deep learning是universal function approximator
04/22 14:22, 22F

04/22 14:22, 6年前 , 23F
物理意義都是硬解釋出來的比較多,倒回去找你覺得有意義的
04/22 14:22, 23F

04/22 14:25, 6年前 , 24F
出來解釋當然沒問題,但我覺得還是不要過度解釋比較好
04/22 14:25, 24F

04/22 14:29, 6年前 , 25F
建議參考DeepMind的https://arxiv.org/abs/1803.06959
04/22 14:29, 25F

04/22 14:54, 6年前 , 26F
我把影片看完了 可是沒看到有提到mp提供非線性的證據啊?
04/22 14:54, 26F

04/22 14:56, 6年前 , 27F
而且每一層的feature map的確pca降維以後還是會有原來的
04/22 14:56, 27F

04/22 14:56, 6年前 , 28F
空間關係
04/22 14:56, 28F

04/22 16:38, 6年前 , 29F
max out是非線性阿,ReLu就是maxout的一個特利
04/22 16:38, 29F

04/22 16:39, 6年前 , 30F
*特例
04/22 16:39, 30F

04/22 17:09, 6年前 , 31F
我沒有看過goodfellow那篇,不過裡面有一段話
04/22 17:09, 31F

04/22 17:10, 6年前 , 32F
https://goo.gl/QG3W12(太長貼不下,下面那個回答)
04/22 17:10, 32F

04/22 17:13, 6年前 , 33F
mp+relu 約等於 = maxout 這樣看來mp不見得有非線性吧?
04/22 17:13, 33F

04/22 18:44, 6年前 , 34F
線性是有定義的,max pooling不滿足f(x+y)=f(x)+f(y)吧
04/22 18:44, 34F

04/22 19:23, 6年前 , 35F
我指依照那種證明方式 我覺得maxpooling並沒辦法提共
04/22 19:23, 35F

04/22 19:23, 6年前 , 36F
高於relu的擬合度
04/22 19:23, 36F

04/22 19:27, 6年前 , 37F
我也是覺得物理意義都是硬套居多 所以希望有更數學上
04/22 19:27, 37F

04/22 19:27, 6年前 , 38F
推bound的方式
04/22 19:27, 38F

04/22 19:35, 6年前 , 39F
我貼的那個影片完全沒有要說明maxpooling是不是線性
04/22 19:35, 39F

04/22 19:35, 6年前 , 40F
我想你找個例子代定義就會知道他不是線性
04/22 19:35, 40F

04/22 19:40, 6年前 , 41F
M大那個晚點來看看@@
04/22 19:40, 41F

04/22 22:37, 6年前 , 42F
我那個時候疑惑的地方是當然max(x1,x2)是非線性
04/22 22:37, 42F

04/22 22:38, 6年前 , 43F
可是mp是在不同dim上 要怎麼套定義上去比較疑惑
04/22 22:38, 43F

04/24 13:12, 6年前 , 44F
你先假設1x1 kernel
04/24 13:12, 44F

04/24 13:12, 6年前 , 45F
這樣不同層的運算就相當於對不同scale去做pooling
04/24 13:12, 45F

04/24 13:13, 6年前 , 46F
那應該就能直接套定義了吧
04/24 13:13, 46F

04/24 13:13, 6年前 , 47F
不過我是覺得直接算就非線性 不同層直接loss掉資訊
04/24 13:13, 47F

04/24 13:13, 6年前 , 48F
很直覺的就更非線性了
04/24 13:13, 48F

04/24 20:00, 6年前 , 49F
max([1,-1]) + max([-1,1]) != max([1+(-1),-1+(1)])
04/24 20:00, 49F

06/03 05:27, 6年前 , 50F
max pooling 雖是非線性的沒錯 但他不足以滿足增加整個模
06/03 05:27, 50F

06/03 05:27, 6年前 , 51F
型的非線性程度 他基本上是在每層之間放棄一些數字,可以
06/03 05:27, 51F

06/03 05:27, 6年前 , 52F
想像是種非線性的down sampling. 他並沒有真的幫模型增加
06/03 05:27, 52F

06/03 05:27, 6年前 , 53F
非線性程度
06/03 05:27, 53F
文章代碼(AID): #1Qsmwt2b (DataScience)
文章代碼(AID): #1Qsmwt2b (DataScience)