來自:開源中國
連結:https://www.oschina.net/news/105178/the-reason-of-google-cloud-storage-incident
昨天開源中國報導了谷歌和 Facebook 相繼出現的全球性大規模宕機事故。現在,事件有了最新的進展,兩家科技巨頭終於正式回應了各自宕機事故的原因。
要註意的是,雖然兩家公司提供的服務都在比較相近的時間內出現了嚴重的宕機問題,再加上有很多捕風捉影的訊息對這次事故作了一些吸人眼球的解讀,但這兩次宕機事故並無直接關聯。實際上,完全是不同的原因導致宕機事故的發生。
谷歌
谷歌釋出了 12 日大面積服務中斷事故的分析報告,指出系 SRE 超載系統使得 Google 雲儲存錯誤率提高導致。
△服務中斷時間是 03-12 18:40-03-12 22:50 (太平洋標準時間)
12日全球各地的許多使用者反映使用 Gmail、YouTube、Google Drive、谷歌音樂與谷歌的其它服務時都遇到了問題,包括北美洲、南美洲、歐洲和亞洲的部分地區都受到影響,谷歌隨後承認出現故障,谷歌雲平臺狀態頁面(Google Cloud Status Dashboard)顯示,此次故障影響了谷歌雲儲存的所有區域。
當地時間 14 日,谷歌釋出了針對該事件的分析報告。
谷歌表示內部 blob(大型資料物件)儲存服務經歷了 4 小時 10 分鐘的服務中斷。
分析了根本原因,其指出在 3 月 11 日,Google SRE 被告警內部 blob 服務使用的元資料的儲存資源顯著增加;3 月 12 日,為了減少資源使用,SRE 進行了配置更改,其副作用是使系統的關鍵部分超載以查詢 blob 資料的位置,而增加的負載最終導致級聯故障。
更具體的,12 日 18:40 到 22:50,谷歌內部 blob 儲存服務錯誤率提高,平均錯誤率為 20%,事件發生時錯誤率為 31%,使用者可見的 Google 服務,包括使用 blob 儲存服務的 Gmail、照片和 Google 雲硬碟錯誤率也提高了,如果沒有這些服務中內建的快取和冗餘機制極大地降低了使用者影響,那麼後果會更加嚴重。
此次事故中,重大的影響包括:Google 雲儲存的長尾延遲較高,平均錯誤率為 4.8%,所有儲存桶位置和儲存類都受到影響,依賴於雲儲存的 Google 雲平臺服務也受到影響;Stackdriver Monitoring 在檢索歷史時間序列資料時出現了高達 5% 的錯誤率,最近的時間序列資料可用,警報沒有受到影響。App Engine 的 Blobstore API 出現了較高的延遲和錯誤率,在獲取 blob 資料時達到峰值 21%,App Engine 部署出現了高達 90% 的錯誤,從 App Engine 提供靜態檔案也會出現錯誤率提升。
谷歌表示非 Google 雲平臺服務受到的影響將會有單獨的事件報告。
對於因此事件受到影響的服務與應用客戶,谷歌深表歉意,並表示正在採取措施以提高可用性並防止此類中斷再次發生。
昨天,Facebook 及旗下產品 Instagram 和 WhatsApp 也遭遇了嚴重的宕機事故,世界各地的 Facebook 使用者都反饋稱他們登入 Facebook、Instagram 和 WhatsApp 遇到一些問題,並且也無法發帖。
Facebook 釋出訊息承認了此次服務中斷,雖然表示該事故與 DDoS 無關,但具體原因並未交待。
網路安全管理公司 Netscout 首席工程師 Roland Dobbins 認為此次宕機可能是一個 BGP 路由錯誤引起的,他表示:“BGP 路由從一家歐洲 ISP 偶然洩露到一家知名的中轉 ISP,這家中轉 ISP 隨後將路由向上傳送到一些對待節點或這家中轉 ISP 的下游提供商,結果導致訪問一些知名網際網路公司的服務出現了短暫的異常。”
然而雲監控公司 ThousandEyes 則認為這是由內部錯誤導致的,“因為 Facebook 傳回了‘ 500 內部伺服器錯誤碼’”。
今天 Facebook 發推文正面回應了此次事故的原因,其表示正是因為伺服器配置的改動而導致了此次宕機,並稱目前問題已經解決,系統正在恢復。
△Facebook 回應
值得一提的是,Facebook 此次宕機事故是知名宕機追蹤網站 Downdectector 有史以來遇到的最嚴重的一次,Downdetector 的聯合創始人 Tom Sanders 表示:“從持續時間來看,這是迄今為止我們在 Downdetector 於 2012 年推出以來所遭遇的最大一次宕機,我們的系統在此次事件中處理了來自終端使用者的大約 750 萬份問題報告。”
詳細內容請檢視「閱讀原文」
●編號308,輸入編號直達本文
●輸入m獲取文章目錄
Linux學習
更多推薦《25個技術類公眾微信》
涵蓋:程式人生、演演算法與資料結構、駭客技術與網路安全、大資料技術、前端開發、Java、Python、Web開發、安卓開發、iOS開發、C/C++、.NET、Linux、資料庫、運維等。