[問題] 關於CNN架構設計及GAN的epoch設計

看板DataScience作者 (玖月)時間6年前 (2018/06/10 16:22), 6年前編輯推噓9(9043)
留言52則, 7人參與, 6年前最新討論串1/2 (看更多)
系統:win10 問題:CNN,GAN 環境:python+jupyter notebook+Keras 各位前輩們好 因為沒在學校修過正規課 平常是看網路教學影片和看書實作 所以有一些不懂的地方想在這裡向前輩們請教 1. 關於GAN實作 我是參考CycleGAN的論文及程式 實現圖片的轉換 較有名的例子是風景變畫或是斑馬變馬 想請問的是Epoch該如何設定會比較好 我目前是固定設定epoch 200 但怎麼確定前面就已經能產生很好的圖片 或是在訓練更多次效果會更好 想請問除了用人眼觀測外 還有其他比較好說服人的方法嗎? 因為不像普通的分類可以使用early stop的方式 2. 在實作CNN的時候 我做的是辨識128x128大小圖片 架構放了三層的convolution 層 但老師質疑為什麼不放更多層 我回答我有嘗試了四層但效果下降 老師卻繼續質疑那可以在放更多到四五層看看 或是乾脆直接用別人現有VGG的19層 而不該使用最簡單的範例model 想請問的是像這些參數: 如層數,filter大小,neuron數的設計 有一定的合理理由嗎 還是只能try & error 比如老師問我FC為什麼要放1000 像這種問題我都覺得很難回答QQ 這些變數的組合實在是太多了Orz 謝謝大家 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 140.113.148.68 ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1528618925.A.94F.html ※ 編輯: arch2453 (140.113.148.68), 06/10/2018 16:26:52 ※ 編輯: arch2453 (140.113.148.68), 06/10/2018 16:27:39

06/10 17:25, 6年前 , 1F
好像沒啥理由耶 就全部試一遍看哪個最好
06/10 17:25, 1F
真的能嘗試的東西組合太多了QQ

06/10 17:38, 6年前 , 2F
嚴格來說越多層 網路能描述的狀況一定比少層的多種
06/10 17:38, 2F

06/10 17:39, 6年前 , 3F
所以牽扯到的就是資料量跟訓練時間的問題
06/10 17:39, 3F

06/10 17:40, 6年前 , 4F
你可以試著證明因為資料量不夠參數量變多反而辨識率下
06/10 17:40, 4F

06/10 17:41, 6年前 , 5F
降 不然單單只是層數變多導致辨識率下降 這個結論是不
06/10 17:41, 5F

06/10 17:42, 6年前 , 6F
合理的
06/10 17:42, 6F

06/10 18:00, 6年前 , 7F
你只放三層? 那被釘活該...
06/10 18:00, 7F

06/10 18:01, 6年前 , 8F
通常都是現有的架構試個一輪再嘗試自己改
06/10 18:01, 8F

06/10 18:04, 6年前 , 9F
除了 trail and error 之外可以多看 paper
06/10 18:04, 9F

06/10 18:05, 6年前 , 10F
連推竟然要 30 秒,懶得講了...
06/10 18:05, 10F
您好 感謝願意回了這麽多 我知道越多層或越多參數理論上會更好 我的訓練量是五萬多筆資料 但該怎麼證明是資料量不夠的問題? 因為我圖片數量比較小想說三層還好 我有嘗試兜一個完全一樣的現有架構vgg19 但推測可能是因為pool層數未更動 導致最後圖片降到太小而辨識率低到4% 理論上大小128*128大概會需要用幾層呢 Paper的話我有google學術網站上 找過所有用到這個DATASET的論文 全部只有一篇使用CNN的方法 但Input不知為何要壓縮成32*32 然後只兜兩層conv就發論文了 謝謝(汗 ※ 編輯: arch2453 (140.113.148.68), 06/10/2018 19:29:15

06/10 21:12, 6年前 , 11F
請問你是用哪個資料集呢? 其實這也是蠻重要的
06/10 21:12, 11F

06/10 21:13, 6年前 , 12F
用幾層通常是考量任務難度 影像大小反而不一定
06/10 21:13, 12F

06/10 21:14, 6年前 , 13F
話說推文限30秒會不會太誇張 這樣是要怎麼討論啦
06/10 21:14, 13F
您好 所使用的是2011年的ASL dataset 做24個字母的手勢辨識 ※ 編輯: arch2453 (140.113.148.68), 06/10/2018 21:32:11

06/10 22:05, 6年前 , 14F
你的字可不可以不要那麼亮QQ
06/10 22:05, 14F
抱歉沒注意到改到顏色QQ

06/10 22:44, 6年前 , 15F
chchan1111很抱歉之前好像不小心動到了設定,目前已經改掉
06/10 22:44, 15F

06/10 22:45, 6年前 , 16F
請您再試看看,下次遇到問題時,歡迎來信諮詢板主,謝謝您
06/10 22:45, 16F

06/10 22:45, 6年前 , 17F
的熱心分享m(_ _)m
06/10 22:45, 17F

06/10 23:28, 6年前 , 18F
我沒聽過越多層辨識率會越高的說法
06/10 23:28, 18F

06/10 23:33, 6年前 , 19F

06/10 23:33, 6年前 , 20F
Deeper usually does not imply better
06/10 23:33, 20F

06/10 23:34, 6年前 , 21F
(p87)
06/10 23:34, 21F
您好 越多層因為參數越多理應能表示更多種不同的情況 87頁中的多層反而下降應該是後面所提到的 Vanish gradient problem 所造成的影響 因此激活函數使用ReLU 可解決此問題 96頁的投影片因此才實作9層的結果 獲得良好的正確率 我的架構也有使用了ReLU 也謝謝您的意見 目前還在各種交錯嘗試 今天意外發現cov層後疊了dropout 層的效果反而是變差的w ※ 編輯: arch2453 (1.169.138.106), 06/11/2018 00:16:23

06/11 01:24, 6年前 , 22F
多層理論上會比較好 但gradient descent又不保證能找到那
06/11 01:24, 22F

06/11 01:24, 6年前 , 23F
最好的參數組合
06/11 01:24, 23F

06/11 01:25, 6年前 , 24F
至於要證明資料量不足 我個人覺得可以隨機把比如說5%的資
06/11 01:25, 24F

06/11 01:26, 6年前 , 25F
料刪掉再拿去train 如果metric變爛代表資料不足
06/11 01:26, 25F

06/11 01:26, 6年前 , 26F
這個拿掉5%再重train的動作要做很多次 每次拿掉不同的5%
06/11 01:26, 26F

06/11 01:27, 6年前 , 27F
會覺得這樣可以證明資料量不足是因為 通常資料量很夠的時
06/11 01:27, 27F

06/11 01:27, 6年前 , 28F
候 train到一半 metric就上不去了 後面再train也只是model
06/11 01:27, 28F

06/11 01:27, 6年前 , 29F
極限
06/11 01:27, 29F

06/11 01:29, 6年前 , 30F
所以理論上資料量很夠的時候 拿掉5% metric也不會降才對
06/11 01:29, 30F
原來如此! 我第一次知道這種方法 感謝!

06/11 05:16, 6年前 , 31F
越多層越好 => residual network
06/11 05:16, 31F
還沒實做過不太熟QQ

06/11 14:55, 6年前 , 32F
不是,參數多只是比較有彈性,不是比較好
06/11 14:55, 32F

06/11 14:56, 6年前 , 33F
二十年前統計理論就可以告訴你當參數超過需要的參數時,
06/11 14:56, 33F

06/11 14:56, 6年前 , 34F
會以什麼樣的方式來傷害模型
06/11 14:56, 34F

06/11 15:03, 6年前 , 35F
層數變深的進步主要是針對計算上的問題克服,但是基本統
06/11 15:03, 35F

06/11 15:03, 6年前 , 36F
計的定理是針對「利用數據建模」這件事情去給予限制,這
06/11 15:03, 36F

06/11 15:03, 6年前 , 37F
部分並沒有被突破。
06/11 15:03, 37F

06/11 15:05, 6年前 , 38F
而我們也只能說在影像等應用領域,似乎越深層的模型結構
06/11 15:05, 38F

06/11 15:05, 6年前 , 39F
越接近真理,但是直接下結論越深越好是很危險的。我研究
06/11 15:05, 39F

06/11 15:05, 6年前 , 40F
的廣告領域,深度學習的表現並沒有特別突破,反而是另一
06/11 15:05, 40F

06/11 15:05, 6年前 , 41F
類模型在比賽中是常勝軍。
06/11 15:05, 41F

06/11 15:08, 6年前 , 42F
我今年投稿kdd的實驗中,在處理censoring 的問題時,甚
06/11 15:08, 42F

06/11 15:08, 6年前 , 43F
至沒有證據顯示深度學習一定比linear好...是個很難做的
06/11 15:08, 43F

06/11 15:08, 6年前 , 44F
問題。
06/11 15:08, 44F
了解 感謝回答 因為有看過說法是深會變廣來得好 我才三層好像也不深XDDD 只是只能各種調整try&error來希望正確率上升有點不知道該怎麼做Q ※ 編輯: arch2453 (1.169.138.106), 06/11/2018 23:23:15

06/12 09:40, 6年前 , 45F
看別人成功的經驗是沒錯的,但是目前在這行,關鍵在實驗
06/12 09:40, 45F

06/12 09:40, 6年前 , 46F
設計:如何建立有效率的環境讓你快速驗證方法是否適用於
06/12 09:40, 46F

06/12 09:40, 6年前 , 47F
你的問題
06/12 09:40, 47F

06/12 09:41, 6年前 , 48F
沒辦法,目前這個領域處於實驗、方法都不太reproducible
06/12 09:41, 48F

06/12 09:41, 6年前 , 49F
簡單來說,別人覺得有用的方法,在你的問題上不一定有用
06/12 09:41, 49F

06/12 09:41, 6年前 , 50F
所以就是看別人怎麼做,但是自己要仔細檢驗...
06/12 09:41, 50F

06/12 09:42, 6年前 , 51F
話說這行目前paper的可信度也不如傳統科學領域,所以驗證
06/12 09:42, 51F

06/12 09:42, 6年前 , 52F
與懷疑非常非常重要...
06/12 09:42, 52F
文章代碼(AID): #1R7D-jbF (DataScience)
文章代碼(AID): #1R7D-jbF (DataScience)