[問題] 硬碟常常會有讀取錯誤產生

看板Linux作者 (pete)時間9年前 (2016/09/14 11:48), 9年前編輯推噓3(305)
留言8則, 7人參與, 最新討論串1/1
學校的計算電腦叢集的硬碟常常會卡住和產生錯誤 比方說 我用df指令時, 顯示計算硬碟掛載的目錄部分就會當住 dmesg 也會產生很多相關的錯誤 LustreError: Skipped 16 previous similar messages Lustre: 4440:0:(import.c:517:import_select_connection()) wk2-OST0000-osc-ffff81042ee37000: trie d all connections, increasing latency to 25s Lustre: 4440:0:(import.c:517:import_select_connection()) Skipped 9 previous similar messages LustreError: 11-0: an error occurred while communicating with 192.168.170.233@o2ib. The ost_con nect operation failed with -30 這類硬碟讀取問題要怎麼自動排除和檢測呢? 有一套sop流程嗎? 感謝~~~~~ -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 140.115.30.19 ※ 文章網址: https://www.ptt.cc/bbs/Linux/M.1473824938.A.599.html ※ 編輯: peter308 (140.115.30.19), 09/14/2016 11:49:51

09/14 12:44, , 1F
fsck
09/14 12:44, 1F

09/14 14:39, , 2F
上面似乎不是硬碟的訊號。 卡住先確認網路是否正常
09/14 14:39, 2F

09/14 15:27, , 3F
連問題都不會問,這是lustre
09/14 15:27, 3F
所以有什麼建議嗎? 這個系統我不熟因為是學校在管理的 我是隨意測試一下發現有這些狀況~~ ※ 編輯: peter308 (140.115.30.19), 09/14/2016 15:48:00

09/14 16:29, , 4F
直接回報管理單位吧
09/14 16:29, 4F
恩恩 因為管理員目前是一位女性代理, 他只能回報廠商 沒辦法處理這些比較專業的問題 我才想能否自行排除維護 感謝~~ ※ 編輯: peter308 (140.115.30.19), 09/14/2016 16:45:59

09/14 17:28, , 5F
交給專業的就好,還是你想自己扛屎?
09/14 17:28, 5F
她不處理 我的數據就出不來,論文就會idle在那邊,很麻煩~ ※ 編輯: peter308 (36.231.191.240), 09/14/2016 17:29:27

09/15 01:00, , 6F
應該是流量太大暫時搞掛 NFS ,暫存本機別直接存 NFS
09/15 01:00, 6F

09/15 01:00, , 7F
結果跑完再一台一台各自拉回去
09/15 01:00, 7F

09/22 00:31, , 8F
可是他是Lustre,如果實驗的資料量太大就沒辦法這樣玩
09/22 00:31, 8F
文章代碼(AID): #1NsCYgMP (Linux)
文章代碼(AID): #1NsCYgMP (Linux)