作業系統級虛擬化
KVM、XEN等虛擬化技術允許各個虛擬機器擁有自己獨立的作業系統。與KVM、XEN等虛擬化技術不同,所謂作業系統級虛擬化,也被稱作容器化,是作業系統自身的一個特性,它允許多個相互隔離的使用者空間實體的存在。這些使用者空間實體也被稱作為容器。普通的行程可以看到計算機的所有資源而容器中的行程只能看到分配給該容器的資源。通俗來講,作業系統級虛擬化將作業系統所管理的計算機資源,包括行程、檔案、裝置、網路等分組,然後交給不同的容器使用。容器中執行的行程只能看到分配給該容器的資源。從而達到隔離與虛擬化的目的。
實現作業系統虛擬化需要用到Namespace及cgroups技術。
名稱空間(Namespace)
在程式語言中,引入名稱空間的概念是為了重用變數名或者服務例程名。在不同的名稱空間中使用同一個變數名而不會產生衝突。Linux系統引入名稱空間也有類似的作用。例如,在沒有作業系統級虛擬化的Linux系統中,使用者態行程從1開始編號(PID)。引入作業系統虛擬化之後,不同容器有著不同的PID名稱空間,每個容器中的行程都可以從1開始編號而不產生衝突。
目前,Linux中的名稱空間有6種型別,分別對應作業系統管理的6種資源:
-
掛載點(mount point) CLONE_NEWNS
-
行程(pid) CLONE_NEWPID
-
網路(net) CLONE_NEWNET
-
行程間通訊(ipc) CLONE_NEWIPC
-
主機名(uts) CLONE_NEWUTS
-
使用者(uid) CLONW_NEWUSER
將來還會引入時間、裝置等對應的namespace.
Linux 2.4.19版本引入了第一個名稱空間——掛載點,因為那時還沒有其他型別的名稱空間,所以clone系統呼叫中引入的flag就叫做CLONE_NEWNS
與名稱空間相關的三個系統呼叫(system calls)
下麵3個系統呼叫用來操作名稱空間:
-
clone() —— 用來建立新的行程及新的名稱空間,新的行程會被放到新的名稱空間中
-
unshare() —— 建立新的名稱空間但並不建立新的子行程,之後建立的子行程會被放到新建立的名稱空間中去
-
setns() —— 將行程加入到已經存在的名稱空間中
註意:這3個系統呼叫都不會改變呼叫行程(calling process)的pid名稱空間,而是會影響其子行程的pid名稱空間
名稱空間本身並沒用名字(囧),不同的名稱空間用不同的inode號來標識,這也符合Linux用檔案一統天下的慣例。可以在proc檔案系統中檢視一個行程所屬的名稱空間,例如,檢視PID為4123的行程所屬的名稱空間:
下麵的程式碼演示瞭如何利用上述3個系統呼叫來操作行程的名稱空間:
執行結果:
控制組(Cgroups)
如果說名稱空間是從命名和編號的角度進行隔離,而控制組則是將行程進行分組,並真正的將各組行程的計算資源進行限制、隔離。控制組是一種核心機制,它可以對行程進行分組、跟蹤限制其使用的計算資源。對於每一類計算資源,控制組透過所謂的子系統(subsystem)來進行控制,現階段已有的子系統包括:
-
cpusets: 用來分配一組CPU給指定的cgroup,該cgroup中的行程只等被排程到該組CPU上去執行
-
blkio : 限制cgroup的塊IO
-
cpuacct : 用來統計cgroup中的CPU使用
-
devices : 用來黑白名單的方式控制cgroup可以建立和使用的裝置節點
-
freezer : 用來掛起指定的cgroup,或者喚醒掛起的cgroup
-
hugetlb : 用來限制cgroup中hugetlb的使用
-
memory : 用來跟蹤限制記憶體及交換分割槽的使用
-
net_cls : 用來根據傳送端的cgroup來標記資料包,流量控制器(traffic — —controller)會根據這些標記來分配優先順序
-
net_prio : 用來設定cgroup的網路通訊優先順序
-
cpu :用來設定cgroup中CPU的排程引數
-
perf_event : 用來監控cgroup的CPU效能
與名稱空間不同,控制組並沒有增加系統呼叫,而是實現了一個檔案系統,透過檔案及目錄操作來管理控制組。下麵透過一個例子來看一看cgroup是如何利用cpuset子系統來把行程系結到指定的CPU上去執行的。
1. 建立一個一直執行的shell指令碼
2. 在後臺執行這個指令碼
3. 檢視該指令碼在哪個CPU上執行
可以看到PID為20553的行程執行在編號為3的CPU上,下麵利用cgroups將其系結到編號為2的CPU上去執行
4. 掛載cgroups型別的檔案系統到一個新建立的目錄cgroups中
5. 建立一個新的組group0
6. 將上面的行程20553加入到新建的控制組中:
7. 限制該組的行程只能執行在編號為2的CPU上
8. 檢視PID為20553的行程所執行的CPU編號
上面的例子簡單的展示瞭如何使用控制組。控制組透過檔案和目錄來操作,檔案系統又是樹形結構,因此如果不對cgroups的使用做一些限制的話,配置會變得異常複雜和混亂。因此,在新版的cgroups中做了一些限制。
小結
本文簡要介紹了作業系統虛擬化的概念,以及實現作業系統虛擬化的技術——名稱空間及控制組。並透過兩個簡單的例子演示了名稱空間及控制組的使用方法。