6 月 24 日,國內雲原生領域最重要的會議即將來襲!KubeCon + CloudNativeCon + Open Source Summit China 2019將在上海召開,螞蟻金服此次也會重度參與,由多名技術專家進行分享並組織 workshop,為參會者獻上技術的饕餮盛宴。
本次大會上,螞蟻金服將會重點分享 Kubernetes 叢集的管理、深度學習任務在 Kubernetes 上的大規模部署和調優、網際網路金融、安全容器等前沿課題。從 2016 年起,螞蟻金服開始深度使用 Kubernetes,並作為終端使用者案例被 CNC F官方推薦:
目前,螞蟻金服不僅在圍繞 CNCF 的雲原生開源技術方面做出貢獻,也開源了自己的金融級雲原生分散式解決方案 SOFAStack,本次大會上螞蟻金服將以 Workshop 的形式展示使用 SOFAStack 來快速實現 Service Mesh 和 Serverless,歡迎關註。
具體分享內容如下:
議題一覽
透過託管 CPU 和 GPU 工作負載,實現資源的高效利用
議題簡介
本次演講主要介紹如何將 AI training 任務和長服務在 Kubernetes 叢集之上混部。主要目的是透過混部各種 workload 提高資源利用率,從而節省資源。我們會從各個不同的維度包括 Qos class, cgroup, scheduling 等等來描述我們如何實現混部,以及如何評估利用率。過去幾個月中,我們構建了一個幾百節點的 GPU 和 CPU 混部叢集,我們會介紹在生產叢集中混合部署長服務和AI批處理任務的最佳實踐。
不再混亂:大規模 Kubernetes 審計和檢查
議題簡介
眾所周知,準確的異常發現和快速的問題分析是保證 Kubernetes 叢集可用性和穩定性的關鍵所在。但在整個 Kubernetes 專案中,有著不計其數的監控指標資料。僅以我們的 Kubernetes 叢集為例,我們觀察到像這樣的監控資料每秒鐘就會產生幾千條。如何合理地利用這些複雜而大量的資料和指標,對它們有效的進行記錄和分析,變成簡單易懂的視覺化展示,變成準確的告警資訊,是一個非常有挑戰性的工作。
在這個演講中,我們希望與大家分享在 Alibaba 在 Kubernetes 叢集監控、審計和巡檢方面的實踐和經驗。首先,我們會聊一聊 Kubernetes 與穩定性相關的重要資料和指標,以及如何去理解它們。我們會以案例的形式,具體講一講我們如何對這些資料和指標進行整合與解析。最後,我們會分享阿裡巴巴高效、實時的對這些資料進行自動化巡檢與分析的最佳實踐。
有效可靠地管理大規模 Kubernetes 叢集
議題簡介
隨著業務的增長,我們需要將 Kubernetets 部署到世界各地的多個資料中心。單個資料中心中就擁有超過數萬個節點。我們面臨的關鍵挑戰是如何高效、可靠地在資料中心內管理多個大規模 Kubernetes 叢集。
在本次演講中,我們將分享實現大規模叢集管理自動化的經驗和實踐。首先,我們將介紹全自動化節點生命週期管理,以及如何基於 NPD、Autoscaler 和自定義運運算元自動發現和恢復節點故障。然後,我們將分享部署和升級 Kubernetes 叢集的經驗和解決方案。最後,我們將分享基於 Prometheus 和運運算元的風險防控系統,該系統可確保叢集可靠性,具有自動故障檢測和隔離的能力。
為網際網路金融關鍵任務場景擴充套件部署
議題簡介
預設部署方法為執行常規版本升級提供了一種良好的解決方案。但是,將高可用性和可靠性的大規模服務部署為網際網路金融應用尚且另當別論,更不用說這種工作負載在現有作業系統和維護系統下所面臨的相容性問題了。
螞蟻金服引入的新工作負載可讓這些問題迎刃而解。它能夠透過可靠而靈活的分發、風險控制的部署策略以及高效能的就地更新擴充套件部署能力。它尤其消除了金融服務行業所面臨的技術障礙,使開發商和運營商能夠專心發展核心業務。
Kubernetes 叢集的大規模分散式深度學習
議題簡介
本次演講的重點是在 Kubernetes 上部署大規模分散式深度學習。此外,還將介紹如何透過使用運運算元來管理和並實現機器學習訓練過程自動化。我們將分享我們的經驗,並比較兩個開源 Kubernetes 運運算元:tf-operator 和 mpi-operator。這兩個運運算元都為 TensorFlow 管理訓練任務,但有著不同的分配策略,這就造成了 CPU、GPU 和網路利用率方面的不同效能結果。
深度學習任務既是網路密集型又是 GPU 密集型,因此對編排進行適當最佳化非常重要。易發的不平衡會導致閑置計算容量,這對於 GPU 節點來說成本太高昂了(與 CPU 相比)。我們將分享我們的經驗,希望可提供有用的洞察,幫助從機器學習任務中獲得更好的經濟效益。
推介會:SIG Cluster 生命週期
議題簡介
Sig-Cluster-Lifecycle Intro 群集生命週期 SIG 是一個專註於群集部署和升級的特別興趣小組。我們的 SIG 正在努力改善使用者體驗,以引導符合最佳實踐的最小可行 Kubernetes叢集。使用我們的主要安裝工具 kubeadm,可以很好地管理簡化的安裝和升級過程。我們最近推出了一個名為 Cluster API 的新 Kubernetes 物件,它將宣告式 Kubernetes 風格的 API 引入群集建立,配置和管理。在本次介紹會上,我們將介紹 SIG 的使命陳述,審核最新更新,並討論我們的路線圖。還介紹了一些新的生命週期專案。非常歡迎您加入我們的 SIG 併為其做出貢獻。
安全沙箱是否已生產就緒?Kata 容器、gVisor 等
議題簡介
在 KubeCon NA 2018 上,我們對 Kata 容器和 gVisor 進行了定量比較,當時我們展示了對 Kata 而言合理的 CPU/網路效能、檔案系統儲存的效能損失、Kata 的記憶體消耗以及 gVisor 的系統呼叫開銷等。
活動結束後,Kata 容器釋出了版本 1.5,支援輕量級管理程式(Nemu 和 FireCracker)。當時我們還介紹了用於檔案系統共享的 virtio-fs,它可以提供更好的 POSIX 相容性和效能。Virtio-fs 能夠與 shimv2 進行無縫的容器化整合,看似能夠在 2019 年為 Kubernetes 提供更出色的生產就緒型安全沙箱支援。
在本次演講中,我們將展示使用更新的測試套件對新推出的技術進行的基準測試,並幫助使用者瞭解它們是否已生產就緒。
SOFAStack Cloud Native Workshop
Service Mesh 將服務間通訊能力下沉到基礎設施,讓應用解耦並輕量化。但 Service Mesh 本身的複雜度依然存在,如何輕鬆的實踐 Service Mesh 技術?在活動現場,我們將帶你感受 CloudMesh 透過將 Service Mesh 託管在雲上,助力輕鬆實踐 Service Mesh 技術。
作為雲原生技術前進方向之一,Serverless 架構讓您進一步提高資源利用率,更專註於業務研發。本次您可以體驗到快速建立 Serveless 應用、根據業務請求秒級 0-1-N 自動伸縮、透過日誌檢視器快速排錯、按時間觸發應用等產品新功能。
微服務架構下,分散式事務問題是一個業界難題。這次,您可以親身體驗如何使用開源分散式事務框架 Seata 的 AT 樣式、TCC 樣式解決業務資料的最終一致性問題。
具體日程可點選這裡檢視。
全部日程
實際日程以大會官網為準。
時間 |
議題 |
6月24日 09:00 – 16:00 |
SOFAStack Cloud Native Workshop |
6月25日 13:35 – 14:10 |
透過託管 CPU 和 GPU 工作負載,實現資源的高效利用 |
6月25日 17:30 – 18:05 |
不再混亂:大規模 Kubernetes 審計和檢查 |
6月25日 17:30 – 18:05 |
有效可靠地管理大規模 Kubernetes 叢集 |
6月25日 16:00 – 16:35 |
為網際網路金融關鍵任務場景擴充套件部署 |
6月25日 16:00 – 16:35 |
Kubernetes 叢集的大規模分散式深度學習 |
6月25日 11:00 – 11:35 |
推介會:SIG Cluster 生命週期 |
6月25日 11:45 – 12:20 |
安全沙箱是否已生產就緒?Kata 容器、gVisor 等 |
朋友會在“發現-看一看”看到你“在看”的內容