[問題] 關於Tensorflow的多gpu運算
作業系統: win7
類別:DL
使用工具:tensorflow-gpu 1.7.0, CUDA : 9.0, CuDnn : 7.0.5
問題內容:
各位版上大神好,不知道這個問題適不適合在這個版問,如果不適合會自刪
小弟有在打Kaggle的2018 DSBL時有用到Mask RCNN做Instance segmentation遇到一個問題
就是Mask RCNN裡面有一個config檔案可以設定要用幾個GPU去做運算
還有設定每一個GPU可以train幾張圖片(底下是該config檔連結)
https://goo.gl/fB5mo6
而一個batch_size就是GPU數量*一張GPU要train幾張圖片,訓練時的圖片大小都是512*512
我之前只有單一片1070設定GPU_count = 1, IMAGE_PER_GPU = 2時可以執行
但訓練到第三個階段就會OOM,所以之後都是設定GPU_count = 1, IMAGE_PER_GPU = 1
然後訓練一個epoch大約是1200秒左右。
而最近拿到了兩片1080 ti就換上去也有SLI,想說兩張1080 ti可以把設定調高
但是不管怎樣都會OOM,就連設定GPU_count = 1, IMAGE_PER_GPU = 2在第一階段就會OOM
只有在GPU_count = 1, IMAGE_PER_GPU = 1才可以執行不會OOM
而在上面的條件下訓練一個epoch變成大約1000秒左右
也就是說兩片1080 ti才比一片1070快200秒左右。
我有下載GPU-Z來看GPU的情況,發現到兩張1080ti都是memory滿載但是load才5%不到
有看到其他kaggler有兩張1080ti的訓練一個epoch大約是300秒
同樣都是1080ti下我的執行時間卻是他們的好幾倍,甚至連batch_size都只能設定為1
想請問各位前輩們是不是我少設定什麼或是有什麼建議的,謝謝各位
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 220.128.240.196
※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1523259676.A.148.html
推
04/09 16:47,
6年前
, 1F
04/09 16:47, 1F
→
04/09 16:48,
6年前
, 2F
04/09 16:48, 2F
我試試看調整這些參數看看 謝謝
推
04/09 17:21,
6年前
, 3F
04/09 17:21, 3F
→
04/09 17:21,
6年前
, 4F
04/09 17:21, 4F
※ 編輯: gn02516700 (220.128.240.196), 04/10/2018 09:24:56
推
04/12 20:30,
6年前
, 5F
04/12 20:30, 5F
→
04/13 09:08,
6年前
, 6F
04/13 09:08, 6F
→
04/13 09:08,
6年前
, 7F
04/13 09:08, 7F
→
04/13 09:08,
6年前
, 8F
04/13 09:08, 8F
推
04/13 17:42,
6年前
, 9F
04/13 17:42, 9F
→
04/13 17:44,
6年前
, 10F
04/13 17:44, 10F
推
04/14 03:09,
6年前
, 11F
04/14 03:09, 11F
→
04/17 09:44,
6年前
, 12F
04/17 09:44, 12F
推
04/17 13:18,
6年前
, 13F
04/17 13:18, 13F
DataScience 近期熱門文章
PTT數位生活區 即時熱門文章