[情報] SSD reliability in the real world

看板PC_Shopping (個人電腦購買)作者 (function(){})()時間8年前 (2016/02/28 23:02), 8年前編輯推噓12(12012)
留言24則, 17人參與, 最新討論串1/1
ZDNet - SSD reliability in the real world: Google's experience http://www.zdnet.com/article/ssd-reliability-in-the-real-world-googles-experience/ 縮:http://goo.gl/jhsFhK 沒有授權我就不轉內容了 大致翻譯一下,不保證正確,請以原文為準: - 來自加拿大多倫多大學的 Bianca Schroeder 教授與 Google 合作,統計 大量使用於 Google 資料中心的固態硬碟可靠性。 - 這項計畫總共統計了: * 六年間數十萬顆固態硬碟 * 十種不同型號 * 三種不同快閃記憶體類型:MLC, eMLC, SLC * 包含企業級及消費級固態硬碟 - 結論中的關鍵: * 規格中的不可修正位元錯誤率完全沒有意義。 * 好消息:在完全損耗前(譯註:達到規格 P/E),底層位元錯誤率成長 速度低於預期(譯註:原預期為指數性成長,但數據指出實際上為線性 成長),且與不可修正位元錯誤率無關。 (譯註:底層位元錯誤多數可以被控制器處理並修正,但無法修正時便 升級為不可修正之位元錯誤,此不包含檔案系統本身錯誤糾正機制) * 高階 SLC 固態硬碟並沒有比 MLC 來的可靠。 * 壞消息:固態硬碟故障率低於普通硬碟,但不可修正位元錯誤率高於普 通硬碟。 * 固態硬碟的年齡影響可靠性,而非使用強度。 * 在全新固態硬碟中壞的區塊十分常見,而已有大量壞區塊的固態硬碟極 可能壞更多其他區塊。可能源於晶粒或晶片製造失誤。 (譯註:區塊指清除指令所清除的最小單位) * 30~80%(譯註:不同型號而有不同結果)的固態硬碟會至少出現一個壞 區塊,而 2~7% 在上線後四年內會壞至少一整顆晶片。 - 結論 * MLC 固態硬碟與高價企業級 SLC 固態硬碟一樣可靠。 這個結果與普通硬碟使用經驗相同,企業級 SAS 及光纖通道硬碟與消 費級 SATA 硬碟一樣可靠。 (譯註:原報告中並無提到此段) * 企業級固態硬碟價格較高的原因,其中之一乃是因其預留空間(over- provisioning)較多所至。固態硬碟需要預留空間的兩個主要原因是: 提供足夠的可用區塊以取代完全損耗的壞區塊;及避免因為垃圾回收( garbage collection)機制導致的寫入效能衰退。 * 報告中的第二個結論是固態硬碟年齡與錯誤率成長有關,而非使用程度 。代表實際上並不需要為了避免快閃記憶體完全損耗而預留空間。 (譯註:這段並不是說 OP 沒有用,顆粒本身會壞,所以越多的 OP 可 保障顆粒壞掉時還有足夠的空間作重映射 re-map,且 OP 可避免 GC 時寫入效能衰退) 受統計之固態硬碟中沒有任何一顆損耗至接近其寫入極限,哪怕是只有 3000 P/E 的 MLC 固態硬碟。 (譯註:Google 狂操猛幹都寫不到 MLC 極限了) * 但並不是只有好消息。固態硬碟不可修正位元錯誤率比普通硬碟更高, 代表對固態硬碟做備份的重要性高於普通硬碟。固態硬碟在其正常壽命 內較不容易故障,但較易丟失資料。 paper 在此:https://www.usenix.org/conference/fast16/technical-sessions/presentation/schroeder 縮:https://goo.gl/oUWmwL 15 頁沒有很多,我看了一下 Summary 其中有幾點很有趣: 1. 有 20~63% 固態硬碟運作四年內曾出現至少一次不可修正錯誤,而運轉 時間中有千分之二至六受此錯誤影響。 2. 底層錯誤率雖常用於測量固態硬碟可靠性,但較高的底層錯誤率並沒有 與高不可修正錯誤率有關,故其並非一個可靠的可靠性指標。 3. 底層錯誤率與不可修正錯誤率與 P/E Cycle 數有關,但成長速度為線性 而非預期的指數性成長。在超過原廠 P/E Cycle 極限後並沒有即死情況 發生。 4. 製程越小,底層錯誤率越高,但不代表較易發生非透明錯誤。 (譯註:可以被控制器修正且不影響使用者的稱為透明錯誤,無法被控 制器修正的稱為非透明錯誤。 不可修正錯誤指讀取時發生錯誤且 ECC 無法修正,會發生於內部操作 ,如 GC,或使用者操作。若為使用者操作發生不可修正錯誤,且經多 次重試後仍無法取得正確資料,稱為最終讀取錯誤) 5. 固態硬碟要嘛壞區塊很少,要嘛整組壞光光。所以可以透過目前壞區塊 數預測故障。還有出廠就有大量壞區塊的,很可能越死越多。 6. 此前 Facebook 公布的固態硬碟可靠性報告與此份報告有兩個差異: 1) FB 將不可修正錯誤與使用強度作連結。FB 的報告中發現了明顯的早 期死亡率,但此報告沒有。探究其原因除了兩家公司測試方法不同外 ,FB 較強調固態硬碟早期生命,而沒有提供超過數百 P/E 後的資料 ,儘管他們的 P/E Cycle 限制高達數萬。此份報告主要研究宏觀角 度下完整的固態硬碟生命週期。 2) FB 報告指出讀取干擾錯誤並沒有明顯的影響。但此份報告指出讀取 干擾雖然沒有產生不可修正錯誤,但卻對底層資料錯誤有影響。 (譯註:讀取時造成鄰近區塊無法充電,稱為讀取干擾錯誤) 7. SLC 底層錯誤率較 MLC 及 eMLC 低,但可靠性並沒有比較高。SLC 固態 硬碟並沒有比較低的替換率與不可修正錯誤率。 eMLC 底層錯誤率較 MLC 高。這可能是因為 eMLC 多數為較小製程。 --

10/12 03:28,
沒買就不能叫喔 位蛇摸
10/12 03:28

10/12 03:28,
連買都不想買的人當然不會在意..廢話一堆
10/12 03:28

10/12 03:28,
我就喜歡叫 一一ㄚㄚ鴨鴨
10/12 03:28

10/12 03:29,
秀出證明來報備阿..對我吠就拿出資格來
10/12 03:29

10/12 03:29,
我改秀識別證可以ㄇQQ
10/12 03:29
-- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 140.117.181.25 ※ 文章網址: https://www.ptt.cc/bbs/PC_Shopping/M.1456671765.A.958.htmls25g5d4:轉錄至看板 Storage_Zone 02/28 23:06

02/28 23:14, , 1F
看不是很懂 SLC 的P/E 比MLC高很多吧..但
02/28 23:14, 1F

02/28 23:14, , 2F
是這篇論文似乎比較偏向PE寫完後衰退程度
02/28 23:14, 2F

02/28 23:14, , 3F
是差不多的?
02/28 23:14, 3F
放在 Google 資料中心的固態硬碟大多都沒寫滿 P/E 限制 即使是只有 3000 P/E 的 MLC 也沒有 所以在 P/E 限制內 SLC 與 MLC 可靠性是沒有差別的,兩 者故障率及不可修正錯誤並沒有顯著差異。

02/28 23:18, , 4F
專業推
02/28 23:18, 4F

02/28 23:18, , 5F
但是還是入手了Extreme Pro 480G XDD
02/28 23:18, 5F

02/28 23:55, , 6F
我想知道資料錯誤要怎麼察覺,如果沒有raid的話
02/28 23:55, 6F
有少部分的檔案系統支援 Checksum 或 ECC,如 ZFS 與 Btrfs 但常見的 NTFS 與 ext2/3/4 都沒有。 ※ 編輯: s25g5d4 (140.117.181.25), 02/29/2016 00:05:26

02/29 00:04, , 7F
……重點是tlc
02/29 00:04, 7F

02/29 00:14, , 8F
微軟的ReFS也有檢查碼,不過好像只有2012 R2 內建
02/29 00:14, 8F

02/29 01:08, , 9F
小廢廢問一下QQ 當出現不可修正錯誤時 系統會發生
02/29 01:08, 9F

02/29 01:08, , 10F
什麼事?
02/29 01:08, 10F

02/29 02:34, , 11F
有趣推
02/29 02:34, 11F

02/29 03:43, , 12F
一般的錯誤會在控制器被修正, 會造成問題只有壞區塊
02/29 03:43, 12F

02/29 03:44, , 13F
壞區塊就無解了, 情形應該就像硬碟壞軌
02/29 03:44, 13F

02/29 05:45, , 14F
就我的認知,所有東西都有留後門
02/29 05:45, 14F

02/29 09:06, , 15F
推好文
02/29 09:06, 15F

02/29 14:00, , 16F
這篇很有參考性
02/29 14:00, 16F

02/29 14:00, , 17F
不過這樣神人可能要崩潰了
02/29 14:00, 17F

02/29 17:12, , 18F
這篇真的不錯
02/29 17:12, 18F

02/29 21:17, , 19F
看來需要組ssd raid5或6了
02/29 21:17, 19F

03/02 21:00, , 20F
翻譯良好!
03/02 21:00, 20F

03/26 01:11, , 21F
03/26 01:11, 21F

03/26 01:20, , 22F
2018/
03/26 01:20, 22F

03/26 01:32, , 23F
朝聖推
03/26 01:32, 23F

03/27 20:21, , 24F
朝聖推
03/27 20:21, 24F
文章代碼(AID): #1MqmmLbO (PC_Shopping)
文章代碼(AID): #1MqmmLbO (PC_Shopping)