關於在GCP上的training

看板DataScience作者 (tiger0105)時間1年前 (2022/09/11 16:22), 編輯推噓1(2114)
留言17則, 5人參與, 1年前最新討論串1/1
各位前輩好 最近我在使用google cloud platform 建立vm來training yolo的模型 環境都已經設置完畢也可以跑,但遇到過了15min-20min job會被砍掉 有嘗試用watch -n 1 nvidia-smi來監看也是會斷線 有上網查可能是runtime limits(? 想請問各位前輩有遇到這樣的問題嗎 謝謝 Ps 硬體設置4-cores+15gb ram +k80 Cpu使用率對時間 https://i.imgur.com/83CDdqT.jpg
----- Sent from JPTT on my iPhone -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 42.72.18.185 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1662884564.A.CA7.html

09/11 16:58, 1年前 , 1F
有個可能是gpu的ram不過
09/11 16:58, 1F

09/11 16:58, 1年前 , 2F
不夠
09/11 16:58, 2F

09/11 17:23, 1年前 , 3F
感謝r大 不過我在跑的時候batch size 沒有很大 在nvidi
09/11 17:23, 3F

09/11 17:23, 1年前 , 4F
a-smi 的使用量大概在2000-3000mib 這張k80好像是~110
09/11 17:23, 4F

09/11 17:23, 1年前 , 5F
00mib 應該是夠的(?
09/11 17:23, 5F

09/12 00:09, 1年前 , 6F
一樓的意思是可能某些步驟寫的不對,就會留下垃圾張
09/12 00:09, 6F

09/12 00:09, 1年前 , 7F
量把g ram撐爆
09/12 00:09, 7F

09/12 00:11, 1年前 , 8F
模型或batch size設太大那剛開始訓練的時候就會oom了
09/12 00:11, 8F

09/12 16:17, 1年前 , 9F
感謝C大 不過我是用AlexeyAB complie的版本 如果哪裡寫
09/12 16:17, 9F

09/12 16:17, 1年前 , 10F
錯我也不知道怎麼改QQ
09/12 16:17, 10F

09/12 16:18, 1年前 , 11F
*compile
09/12 16:18, 11F

09/12 20:05, 1年前 , 12F
紀錄log啊,gcp應該有類似grafana的監控紀錄吧?
09/12 20:05, 12F

09/30 15:46, 1年前 , 13F
樓上c在胡說八道,建議你抽V100跑看看,觀察一下~
09/30 15:46, 13F

10/13 09:08, 1年前 , 14F
大家好 問題已解決了 回文記錄一下 因為是用後端運行no
10/13 09:08, 14F

10/13 09:08, 1年前 , 15F
hup darknet….. > cout.txt & 後來改成 nohup darknet
10/13 09:08, 15F

10/13 09:08, 1年前 , 16F
…… 2>&1 > cout.txt & 就不會被中斷了 詳細為什麼
10/13 09:08, 16F

10/13 09:08, 1年前 , 17F
目前還不知道… 因為我在自己的server測是沒問題的
10/13 09:08, 17F
文章代碼(AID): #1Z7PhKod (DataScience)
文章代碼(AID): #1Z7PhKod (DataScience)