[請益] 請教關於RAID問題!麻煩各位了

看板hardware (電腦硬體)作者 (穿褲子穿到摔倒)時間7年前 (2016/08/01 21:21), 編輯推噓5(5080)
留言85則, 6人參與, 最新討論串1/1
大家好: 小弟對於RAID的概念很差,幾乎為0..所以有些問題!可能要麻煩各位先進解惑了!感謝 狀況敘述: 一台SERVER電腦,RAID5然後有四顆硬碟! 由於這兩天開始陸續發生SERVER資料存取上有問題 所以才開始檢查SERVER,發現其中一顆硬碟燈亮橘色 詢問同事,同事表示RAID5 (4顆硬碟) 其中一顆故障後 就有可能會造成資料無法存取的狀況出現!(電腦正常運作) 由於目前沒有硬碟的備品,同事建議我先直接將壞掉的硬碟關機後拆掉! 在盡快拿備品來補上! 想請問的部分是 1.RAID5 (4硬碟) 其中一顆掛掉,那會出現資料無法存取的狀況是合理的嗎? 2.將故障的硬碟卸除,這個部分建議這麼做嗎?有沒有風險呢?? 以上!!還煩請各位先進解惑了 !!謝謝大家 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 1.173.70.111 ※ 文章網址: https://www.ptt.cc/bbs/hardware/M.1470057697.A.5B4.html

08/01 21:24, , 1F
應該是,會很慢,因為資料要解算回來.......
08/01 21:24, 1F

08/01 21:31, , 2F
RAID5壞一顆,下次 第一時間不是上ptt 而是趕快叫料
08/01 21:31, 2F

08/01 21:32, , 3F
主機支援熱插拔 就是到貨後 換上去 讓它重建
08/01 21:32, 3F

08/01 21:32, , 4F
重要資料能備份 先備起來 如果重建過程掛掉 就全沒了
08/01 21:32, 4F

08/01 21:33, , 5F
壞一顆會變慢 會很慢 忙一點就容易沒有回應
08/01 21:33, 5F

08/01 21:34, , 6F
是Server就先查過保沒 保固內 免費料件很快就到貨了
08/01 21:34, 6F

08/01 21:37, , 7F
因為需要跑流程,備品沒辦法很快取得!
08/01 21:37, 7F

08/01 21:38, , 8F
我先將這顆故障硬碟卸下,她速度還會很慢嗎??
08/01 21:38, 8F

08/01 21:38, , 9F
有些買四顆RAID5是要3+1HotSpare但是很常被四顆全上
08/01 21:38, 9F

08/01 21:40, , 10F
我的應該是沒有hot-spare!因為有的話理論上一顆掛掉
08/01 21:40, 10F

08/01 21:41, , 11F
廠商工程師建的RAID 不要太相信 有些菜到不行 還是驗
08/01 21:41, 11F

08/01 21:41, , 12F
應該另一顆 會補上的樣子!上網查的資訊是如此
08/01 21:41, 12F

08/01 21:42, , 13F
是啊 明明一顆要當備援的 看過很多廠商 幾乎都全上
08/01 21:42, 13F

08/01 21:42, , 14F
有些消費者 還以為四顆全上的 裡面包含hotspare (笑
08/01 21:42, 14F

08/01 21:43, , 15F
所以我第一次遇到這狀況,因為是蠻重要的電腦
08/01 21:43, 15F

08/01 21:43, , 16F
老闆跟我說 直接把那顆壞得先拔掉就好
08/01 21:43, 16F

08/01 21:44, , 17F
我不知道到底會不會出狀況..很懊惱= =
08/01 21:44, 17F

08/01 21:46, , 18F
所以很重要的Server 過保沒? 已經叫料了沒?
08/01 21:46, 18F

08/01 21:47, , 19F
應該過保了..叫料部分需要先與客戶談完費用才有辦法叫!
08/01 21:47, 19F

08/01 21:47, , 20F
我需要在最短時間內先穩住它的基本運作= =
08/01 21:47, 20F

08/01 21:50, , 21F
RAID5壞一顆 就這樣了 平常有備份吧?
08/01 21:50, 21F

08/01 21:51, , 22F
ㄎㄎ 老闆都不在意風險了 你又何必呢...
08/01 21:51, 22F

08/01 21:52, , 23F
我們這邊都異地備份+RAID 出問題則是立刻處理...
08/01 21:52, 23F

08/01 21:53, , 24F
我剛出社會第一份工作上司不懂RAID5壞一顆後亂搞全掛
08/01 21:53, 24F

08/01 21:54, , 25F
唉..不妙~~~~冏
08/01 21:54, 25F

08/01 21:55, , 26F
把裡面資料備份出來 才是重點...
08/01 21:55, 26F

08/01 21:55, , 27F
更換時也是拔掉再插進去新的 理論上拔掉壞的不會怎樣
08/01 21:55, 27F

08/01 21:56, , 28F
但是沒料件更換 開一個大洞 是要吃灰塵嗎?
08/01 21:56, 28F

08/01 21:57, , 29F
沒備份快備份 然後求神保佑跑流程到貨更換到結束
08/01 21:57, 29F

08/01 21:57, , 30F
它們的說法是因為他存取時跑到這顆故障碟後,不會BYPASS
08/01 21:57, 30F

08/01 21:57, , 31F
所以會卡住,將他拿掉後就可以正常了
08/01 21:57, 31F

08/01 21:58, , 32F
沒意外跑完流程拿到貨可能也要兩個禮拜!= =
08/01 21:58, 32F

08/01 21:59, , 33F
你能做的就是確保假如發生最壞狀況能透過備份還原
08/01 21:59, 33F

08/01 22:01, , 34F
了解!我會先去做這備份動作!!沒備份到時候放新硬碟
08/01 22:01, 34F

08/01 22:01, , 35F
也很可怕
08/01 22:01, 35F

08/01 22:03, , 36F
平常就要規劃備份 壞了一顆的時候才在備 也很抖
08/01 22:03, 36F

08/01 22:06, , 37F
然後講個小故事 看過有人掛掉一顆 兩個月後才被發現
08/01 22:06, 37F

08/01 22:07, , 38F
我就很好心地(雞婆)告訴他們 趕快找廠商吧
08/01 22:07, 38F

08/01 22:09, , 39F
後來就趕快到廠商 幫他們換硬碟 安全過關了
08/01 22:09, 39F

08/01 22:09, , 40F
這個很正常..因為我的server也放在我平常不會去的地方
08/01 22:09, 40F

08/01 22:09, , 41F
所以除非是有人看到跟我們說,否則根本不會有人發現..
08/01 22:09, 41F

08/01 22:10, , 42F
我一年大概看到我的server主機不到2次..
08/01 22:10, 42F

08/01 22:15, , 43F
所以Server上應該會裝驅動附的monitor 定期連線檢查
08/01 22:15, 43F

08/01 22:16, , 44F
有些會具備連線管理功能 可以集中管理檢查各主機狀態
08/01 22:16, 44F

08/01 22:17, , 45F
如果嚴重性夠 有些狀況可跑最急件 也許比平常快買到
08/01 22:17, 45F

08/01 22:19, , 46F
老闆知道嚴重性後 還是要跑兩週採購流程 就跑吧
08/01 22:19, 46F

08/01 22:28, , 47F
1.資料無法存取是正常,先進SRV提供的遠端管理工具查看
08/01 22:28, 47F

08/01 22:28, , 48F
若沒有設置遠端管理設定,查看是否有Megaraid or SSA
08/01 22:28, 48F

08/01 22:30, , 49F
若為舊款則Serverraid or ACU
08/01 22:30, 49F

08/01 22:31, , 50F
若你的SRV屬於intel or cisco or 工業電腦,則另外看
08/01 22:31, 50F

08/01 22:32, , 51F
2.沒有必要將壞的硬碟取出,你同事給的觀念錯誤很大
08/01 22:32, 51F

08/01 22:32, , 52F
Raid Card這邊若是偵測到硬碟故障,是不會允許存取
08/01 22:32, 52F

08/01 22:32, , 53F
取出只是增加風險,且你沒有準備備料,取出的意義不明
08/01 22:32, 53F

08/01 22:33, , 54F
關機後進行拔插的風險也高,沒有必要做的事情
08/01 22:33, 54F

08/01 22:34, , 55F
其次上面所說的建立Raid,說真的大多都是用戶的問題
08/01 22:34, 55F

08/01 22:35, , 56F
Raid其實在IT產業這塊,是很基礎的知識,甚至可以說不用
08/01 22:35, 56F

08/01 22:35, , 57F
特地拿出來講,只要你有管理SRV都會知道要做甚麼RAID
08/01 22:35, 57F

08/01 22:36, , 58F
既然用戶都知道,4顆做RAID5 還是 3+1的方式,這些都取決
08/01 22:36, 58F

08/01 22:37, , 59F
用戶,4顆擁有多一顆容量,hotspare擁有二次備援的機會
08/01 22:37, 59F

08/01 22:38, , 60F
這些建置都一定是客戶給的資訊
08/01 22:38, 60F

08/01 22:39, , 61F
因此我會建議你先行到管理工具查看,實體硬碟的狀態
08/01 22:39, 61F

08/01 22:40, , 62F
確認資料存取正常,看看有沒有做Cluster,做failover轉移
08/01 22:40, 62F

08/01 22:41, , 63F
若只有單一台SRV,應該考慮是否要先告知主管,暫停服務
08/01 22:41, 63F

08/01 22:41, , 64F
避免硬碟存取掛點,導致Raid Crash
08/01 22:41, 64F

08/01 22:42, , 65F
若服務無法中斷,應立即請維修廠商來更換,資料無價
08/01 22:42, 65F

08/01 22:45, , 66F
個人的經驗,曾經有位管理SRV的說,他以為壞兩顆的機率很低
08/01 22:45, 66F

08/01 22:45, , 67F
直到他發生壞一顆,要求廠商隔日到場更換,卻在凌晨時掛
08/01 22:45, 67F

08/01 22:46, , 68F
了另外一顆,原本簡單的換硬碟看Rebuild,瞬間變成搶救資料
08/01 22:46, 68F

08/01 22:47, , 69F
雖然有backup進行,但db的資料卻步是最新,因此他寫了三天
08/01 22:47, 69F

08/01 22:47, , 70F
報告,外加一天的檢討會議,以上...
08/01 22:47, 70F

08/01 22:48, , 71F
以上情況屬於舊機型,現在資料都會存在Storage
08/01 22:48, 71F

08/01 22:49, , 72F
而且現在硬體太強,VM太方便,架構雙重備援已不是難事
08/01 22:49, 72F

08/01 23:01, , 73F
非常認同 感謝寫這麼多行 不過有些業界狀況很糟糕
08/01 23:01, 73F

08/01 23:02, , 74F
公司沒有資訊 然後系統要Srv就採購 然後沒開條件
08/01 23:02, 74F

08/01 23:03, , 75F
廠商也不知道客戶要什麼 然後剛好請到菜鳥 就亂出了
08/01 23:03, 75F

08/01 23:05, , 76F
有看過四顆獨立硬碟沒raid 也看過raid0當raid1的
08/01 23:05, 76F

08/01 23:05, , 77F
歸咎客戶沒想法 廠商給他看到Server登入桌面就好
08/01 23:05, 77F

08/01 23:06, , 78F
那是該家的SI素質太差,現在SRV的Raid白癡都會做
08/01 23:06, 78F

08/01 23:06, , 79F
SSA點幾下,多餘硬碟還會問你要不要做hotspare
08/01 23:06, 79F

08/01 23:07, , 80F
IBM 的M5現在整合到BIOS裡頭,按個幾下也完成
08/01 23:07, 80F

08/01 23:07, , 81F
補正一下,IBM改Lenovo
08/01 23:07, 81F

08/01 23:18, , 82F
感謝各位,明天會先請公司聯絡dell看能否儘快更換
08/01 23:18, 82F

08/01 23:19, , 83F
謝謝你們!
08/01 23:19, 83F

08/02 03:44, , 84F
樹狀的分割區,每個分割都有好幾個備份,才是正解,RAID
08/02 03:44, 84F

08/02 03:44, , 85F
已經過時
08/02 03:44, 85F
文章代碼(AID): #1NdqpXMq (hardware)
文章代碼(AID): #1NdqpXMq (hardware)