[情報] 從亞馬遜雲服務故障中吸取的七個教訓

看板Cloud作者Obb (有趣的世界)時間15年前 (2011/04/27 13:59)推噓1(1推 0噓 2→)

留言3則, 3人參與討論串1/1

亞馬遜雲服務故障引發了人們對雲計算的疑慮。那麼我們能從中吸取哪些教訓呢？ 1. 認真閱讀雲服務提供商的服務水平協議令人叫絕的是近乎四天的故障並沒有違反亞馬遜的EC2服務水平協議（SLA），FAQ部分寫著「在一個區域內一年以內保證99.95%的可用性」。而這次發生故障的是EBS和RDS服務，而不是EC2，所有故障都發生在單獨區域，從法律角度講該協議沒有問題。這一點值得思考。 2. 別認為服務商的保障可以做到萬無一失很多受影響用戶向亞馬遜支付額外費用把自己的服務託管在多個可用區（Availability Zone）。亞馬遜實際上也推薦這種做法。亞馬遜稱每個可用區都獨立運轉，有獨立的基礎設施，非常可靠。一個可用區的發電機或冷卻系統出現問題不會影響其它數據中心。此外，這些區域之間有物理隔絕，即便遇到火災、龍捲風、洪水等自然災害也只會影響一個可用區。不幸的是這只是一種技術指標，並沒有包括在合同條款。亞馬遜消除此次事件的負面影響還需要一段時間。做到事後諸葛亮不難，但亞馬遜面對這種故障時的脆弱或許本可以通過深入的盡職演練加以避免。正如亞馬遜競爭對手Joyent的首席科學家 Jason Hoffman 所言：「這次不是速度變慢，不是雲計算失敗，也不是成長的煩惱，這是亞馬遜的基礎框架決策導致的可預見後果。」 3. 大部分顧客仍會原諒亞馬遜的失敗不管所受影響多麼嚴重，人們一直在讚美亞馬遜，因為亞馬遜幫助他們用低廉的成本和少量的投入運營者強大的基礎設施。很多人在批評的同時也會給予褒獎，比如BigDoor表示：「AWS幫助我們以極低的成本快速升級一個負責的系統。在任何時候我們都有運轉良好的12台數據庫服務器，45台應用服務器，6台靜態服務器和6台分析服務器。如果流量或處理能力超了我們的系統會自動升級，如果不需要就會自動降級，從而節省費用。」 4. 除了雲服務提供商的恢復能力之外，還有很多補救措施正如來自O'Reilly的 George Reese 指出，如果你的系統在本週的亞馬遜雲服務故障中掛綵的話，那不是亞馬遜的錯誤。或者你把這種故障看作是可接受的風險，或者你沒能按照亞馬遜雲計算模式進行設計。查看亞馬遜顧客使用的技術、避免故障非常有用。 Twilio和NetFlix在此次故障中安然無恙，前者是因為根據亞馬遜的技術規範進行了出色的設計，後者雖然把所有的基礎設施都託管在亞馬遜雲服務中，但通過使用多個數據中心的服務來確保服務的可靠性。 5. 增加額外的恢復能力需要更高成本聰明的用戶和Paas服務商應該準備多套方案。無論如何你都應該備份到亞馬遜S3存儲服務上，這樣一旦出現問題，你可以從S3中恢復。 6. 權衡好利弊關係可以幫助你提出問題在選擇一家雲服務之前要提出一些問題，從而判斷該服務是否靠譜。比如你可以問這樣的問題：你們會通過關閉某些基礎設施來檢測你們的自動備份能力嗎？當然，你最好能親眼看到類似測試。 7. 缺乏透明性是亞馬遜的「軟肋」很多受到影響的顧客都抱怨在故障期間亞馬遜沒有提供足夠的有用信息。BigDoor CEO Keith Smith 說「如果亞馬遜能預料到他們目前遭遇的故障的話，我們就可以很快恢復我們的系統了」。GoodData 的 Roman Stanek 則呼籲亞馬遜推倒神秘的圍牆：我們的開發運營人員不知道如何管理系統的性能、可擴展性、以及最重要的應急恢復能力。「合理的」服務水平協議和「99.999%承諾」之間的區別就是臨時抱佛腳和完全符合我們各自運營流程之間的區別……在雲設施中，IaaS，PaaS，SaaS和顧客之間不應該有溝通圍牆。亞馬遜在未來幾週內的挑戰就是如何提供用戶所需信息，增強自己的恢復能力。如果亞馬遜無法滿足這種需求，而且其它公司做得更好的話，它或許會漸漸失去今天在Iaas領域的統治地位。 http://b99.in/fkx1h 成長的煩惱：亞馬遜雲服務故障引發雲計算擔憂雲服務好比是一個風箏，風太大時風箏就會斷線。 http://www.36kr.com/kite-in-the-cloud/ -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 114.33.12.223