Fw: [問題] 深度學習SSD壽命

看板DataScience作者 (WOT NA 怒伯)時間2年前 (2022/01/20 07:07), 2年前編輯推噓0(009)
留言9則, 3人參與, 2年前最新討論串1/1
※ [本文轉錄自 Storage_Zone 看板 #1XuTWnaZ ] 剛剛才發現有這個板 有一些問題轉過來向先進們請教 作者: PttCraft (WOT NA 怒伯) 看板: Storage_Zone 標題: [問題] 深度學習SSD壽命 時間: Sat Jan 15 04:08:15 2022 最近下載了faceswap玩玩 看了一下說明 在訓練機器創建模型的時候 session iteration動輒上百萬次 目前電腦上有SSD也有傳統硬碟 想請教一下有經驗的前輩 這類程式的使用,對SSD壽命會不會有影響? 可以放心地把工作區域放在SSD上嗎? 謝謝 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 174.103.163.88 (美國) ※ 文章網址: https://www.ptt.cc/bbs/Storage_Zone/M.1642190897.A.923.html

01/15 04:54, 2年前 , 1F
你的ram不做事嗎
01/15 04:54, 1F
https://i.imgur.com/ikPF9kB.jpg
我現在工作區放在傳統硬碟上 看他的atcitive time上上下下常常跳到高檔 所以有此一問 RAM穩定維持在使用20GB/32GB (有一邊開視窗跑其他遊戲程式) CPU(AMD 5 3600)使用率大約維持在60%上下 GUP(1070 8G)使用率約在70-80%,8G vram持續維持在滿檔

01/15 07:05, 2年前 , 2F
寫入比較損耗壽命
01/15 07:05, 2F

01/15 08:17, 2年前 , 3F
建議原PO跑一次建模前後各開啟看一下smart 數值
01/15 08:17, 3F

01/15 08:17, 2年前 , 4F
這樣就知道累積的寫入讀取量
01/15 08:17, 4F

01/15 09:04, 2年前 , 5F
買更多ram 用 ramDisk
01/15 09:04, 5F

01/15 09:26, 2年前 , 6F
你找個監控軟體例如HWInfo看一下大約的寫入量 再去
01/15 09:26, 6F

01/15 09:26, 2年前 , 7F
對照一下SSD的TBW 就知道大略的壽命影響了
01/15 09:26, 7F
OK我試試看

01/15 10:03, 2年前 , 8F
980 pro寫掉40t,CDI只掉1%給你計算參考
01/15 10:03, 8F

01/15 10:06, 2年前 , 9F
當然如果不在意機械硬碟那精美的延遲及噪音那就繼
01/15 10:06, 9F

01/15 10:06, 2年前 , 10F
續無腦用…畢竟企業碟都有250萬mtbf …
01/15 10:06, 10F

01/15 10:07, 2年前 , 11F
花大把時間計算,儲存量也不大,該擔心的不是SSD使
01/15 10:07, 11F

01/15 10:07, 2年前 , 12F
用壽命,而是SSD的猝死可能性吧!!
01/15 10:07, 12F

01/15 10:44, 2年前 , 13F
raid0 ssd can solve problem
01/15 10:44, 13F

01/15 10:44, 2年前 , 14F
raid1 ssd can solve problem
01/15 10:44, 14F

01/15 10:48, 2年前 , 15F
raid can NOT solve problem, only ramdisk can
01/15 10:48, 15F

01/15 10:50, 2年前 , 16F
no , only Money can solve problem ....:D
01/15 10:50, 16F

01/15 10:58, 2年前 , 17F
this is a book
01/15 10:58, 17F

01/15 12:10, 2年前 , 18F
that is a cat
01/15 12:10, 18F

01/15 14:14, 2年前 , 19F
meow
01/15 14:14, 19F

01/15 16:35, 2年前 , 20F
買夠多的RAM,裝終保的RAM disk軟體
01/15 16:35, 20F

01/15 21:41, 2年前 , 21F
Weeeeeeee~~~
01/15 21:41, 21F

01/17 21:40, 2年前 , 22F
記得回報喔 我也想看看吃多少
01/17 21:40, 22F
上次training沒有成功結束就crash了 大約是275000 iteration HWinfo64的紀錄寫入了大約400GB 磁碟空間沒有顯著的減少,所以大概是同一個檔重複寫入更新吧 這樣算起來如果跑個一百萬次 寫入的量大概會接近2TB 我的SSD 壽命大約是600TBW 2TB說多不多說少不少 所以我就想說再回去用HDD把整套流程玩熟了再回來用SSD產出 但是很怪的是用HDD每隔一陣子就會卡住 task manager會看到HDD Active time 100%滿檔 可是傳輸速度很低 卡住的時候session iteration的數字就不跳了,好像暫停程序的感覺 卡一陣子之後才會又開始跑 但是跑了48小時都還沒crash 不知道是什麼問題

01/18 16:08, 2年前 , 23F
棺材裝死人不是裝老人, SSD猝死非常可能
01/18 16:08, 23F
※ 發信站: 批踢踢實業坊(ptt.cc) ※ 轉錄者: PttCraft (174.103.163.88 美國), 01/20/2022 07:06:59

01/20 13:28, 2年前 , 24F
怕的話就把模型和參數存在hdd裡
01/20 13:28, 24F

01/20 13:29, 2年前 , 25F
要把sdd寫死之前先考慮你gram和顯卡頻寬能不能做到
01/20 13:29, 25F

01/20 16:20, 2年前 , 26F
怎麼會寫這麼多...通常會寫入不就存checkpoint而已
01/20 16:20, 26F

01/20 16:20, 2年前 , 27F
還是faceswap的訓練需要存gradient checkpoint?
01/20 16:20, 27F

01/20 16:20, 2年前 , 28F
有沒有CV比較熟的可以解釋一下
01/20 16:20, 28F

01/20 16:21, 2年前 , 29F
我猜是可能是存checkpoint的間隔step很少
01/20 16:21, 29F

01/20 16:22, 2年前 , 30F
跑沒幾步就存一次 原po要不要看看有沒有參數可以改
01/20 16:22, 30F
有可能 他預設250次就存一次 因為是預設我就沒去動他 我來改改看再測測看 謝謝

01/22 12:02, 2年前 , 31F
iteration 通常是指計算更新一次參數,通常不會做完
01/22 12:02, 31F

01/22 12:03, 2年前 , 32F
喔 我發現要講的樓上講完了
01/22 12:03, 32F
我一口氣把250次的儲存間隔拉到5000次 到目前450000次過去了 寫入大約60GB 果然降了很多 ※ 編輯: PttCraft (174.103.163.88 美國), 01/22/2022 12:38:22
文章代碼(AID): #1Xw9cK31 (DataScience)
文章代碼(AID): #1Xw9cK31 (DataScience)