運維行業正在變革,推薦閱讀:30萬年薪Linux運維工程師成長魔法
運維流程管理工具
釋出變更流程管理工具:做為系統介面與其他角色的工作銜接。並提供審批環節控制釋出變更的風險。流程管理工具並不負責具體的業務操作的執行,只是作為單據系統跟蹤流程和確保閉環。
告警和突發管理工具:體現業務受損的告警自動建單管理。人工確認之後升級為突發單。透過建單管理告警和突發確保流程的閉環,以及每次故障都能夠總結出經驗,並未度量業務的可用性提供KPI。
運維釋出變更工具
版本管理工具(資料庫):所有的釋出應該以版本管理為起點。研發給的版本包先入版本管理工具,再從版本管理工具分發到現網釋出。杜絕 rsync 一臺伺服器釋出另外一臺的做法。
配置管理工具(資料庫):版本加配置等於現網每臺機器的狀態。最粗粒度的配置管理是到 IP 級別,相當於對機器做資產管理,分組到不同的業務,模組和大區等業務概念上。細粒度一點會管理到行程以及行程的相關的配置。
配置和版本下發工具:把指定的版本,結合配置好的配置下發到現網的機器上。不同的版本和配置方式需要完全不同的下發方式。以 ssh/fabric 為代表的下發方式是以指令碼為中心的。以 puppet/chef 為代表的下發方式是以配置為中心的。
現網狀態同步工具:為了規避現網狀態漂移,與管理工具內的記錄不一致。需要有一個工具定時上報現網的實際狀況。
服務排程工具:釋出變更經常需要一個序列的流程,先做A模組,再做B模組。很多機器的時候,需要把能併發的操作併發執行,不能併發的操作確保序列執行。同時很多釋出變更流程需要操作管理範圍外的服務,比如雲端的DNS伺服器記錄等。這就需要有一個服務排程工具統一排程配置和版本下發工具,流程單據工具,以及其他系統的API介面共同組裝成一個流程。
資源管理和隔離工具:以xen/kvm為代表的工具讓運維可以更靈活的切割資源。比如虛擬機器的快速起停,ip在idc內的漂移等。以 lxc/docker 為代表的工具讓運維可以進一步的切割資源到行程級別。資源隔離代理的細粒度的資源控制可以獲得更好的資源利用率,以及更容易進行可伸縮的資源配置。
釋出變更統一介面:包裝所有的下層工具,提供簡單的介面完成標準化的釋出變更操作。
運維監控告警工具
採集工具:一般是採集日誌檔案,也可以是定時輪詢 DB 或者其他系統的介面。流行的開源方案是 logstash。
收集工具:採集工具上報給收集工具。或者由開發直接修改程式碼上報指標給收集工具。流程的開源方案還是 logstash。
統計入庫工具:上報可能是每次呼叫就上報一次,統計工具負責統計出一分鐘內的次數。上報也可能是每5秒上報一次數值,統計工具負責統計出一分鐘內的最大值。統計工具的存在是為了上報的方便。流行的開源方案是 statsd,也有大公司基於 storm 來做二次開發的。
時間序列資料庫:所有定時指標會落地到資料庫裡。監控告警所需要的資料庫需要能夠支撐非常大的資料量,但是並沒有很嚴格的 ACID 要求。
運維事件資料庫:記錄所有的告警。包括從其他系統獲得告警,以及對現網的所有變更操作記錄。這些資料用於支撐告警的原因定位。
指標異常檢測工具:基於數學模型發現指標是否與過去的穩定樣式背離,而推測出現網狀態的變化。
撥測工具:定時 PING 或者 HTTP GET,模擬實際使用者發現服務是否中斷,產生告警。同時也產生指標上報給收集系統。撥測又分為本地撥測,和遠端撥測。本地撥測可以用於發現磁碟只讀等本機告警。遠端撥測可以模擬使用者的地理分佈,把網路的鏈路狀況也包含在撥測改寫的範圍內。
告警收斂工具:綜合所有來源的告警,進行頻率收斂,根源分析。統一彙總成報告催促人工修複。
告警自動修複工具:接受告警進行自動化的處理。幫運維完成固定的故障機下架退庫等操作。或者在業務本身沒有做高可用的情況下,做故障機替換,ip漂移等現網修複操作,一定程度地提高業務可用性。
告警通知工具:重要的告警需要升級為電話。需要有高可用的電話,簡訊,微信等通知介面。
監控告警統一介面:遮蔽下層各種工具,提供統一的agent安裝,指標採集設定,指標曲線展示,告警查詢的介面。一個地方知道現網的所有的問題。
原文:taowen
連結:http://segmentfault.com/a/1190000002984400
————近期開班————
《馬哥Linux雲端計算及架構師》課程,由知名Linux佈道師馬哥創立,經歷了8年的發展,聯合阿裡巴巴、唯品會、大眾點評、騰訊、陸金所等大型網際網路一線公司的馬哥課程團隊的工程師進行深度定製開發,課程採用 Centos7.2系統教學,加入了大量實戰案例,授課案例均來自於一線的技術案例,自動化運維、Devops、雲服務、python等技能一站式搞定,掌握2018年linux雲端計算高薪未來。
29期網路班:2018年02月10日(網路)
30期面授班:2018年03月26日(北京)
更多Linux好文請點選【閱讀原文】哦
↓↓↓