[問題] cluster的cpu用量監測系統壞掉,替代?
學校的cluster system本來有一個Ganglia的cpu用量監測系統
但Ganglia最近壞掉無法即時監測遠端電腦的cpu使用狀況
cluster是使用"PBS"來派送任務
不知道有沒有替代的指令 可以監測node01~node20,
哪一個node的任務還沒跑完?
因為有的node可能硬體有些問題, 跑得比別人慢
我以前用Ganglia去監測很容易就知道是哪顆node特別慢
然後下次在script指定node的時候就會刻意跳過他
不知道除了Ganglia外 有哪些是不需要root也能執行的指令
讓我知道哪個node執行特別慢 導致整個計算任務倍那個node給拖累
感謝~~~~~
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 140.115.30.19
※ 文章網址: https://www.ptt.cc/bbs/Linux/M.1477648097.A.623.html
※ 編輯: peter308 (140.115.30.19), 10/28/2016 17:49:35
→
10/28 18:12, , 1F
10/28 18:12, 1F
→
10/28 18:14, , 2F
10/28 18:14, 2F
→
10/28 18:15, , 3F
10/28 18:15, 3F
推
10/30 18:23, , 4F
10/30 18:23, 4F
→
11/25 15:04, , 5F
11/25 15:04, 5F
Linux 近期熱門文章
21
56
PTT數位生活區 即時熱門文章