說起“位元組跳動”可能大多數人都不知所云,但如果說“今日頭條”或者“抖音”你一定非常熟悉。今日頭條和抖音只是位元組跳動公司旗下兩款最為人所熟知的產品,其他產品還包括西瓜影片、火山小影片以及悟空問答等等。
抖音,這個突然在今年火爆起來的App已經成為諸多年輕人打發時間的首選。“刷抖音”這句時髦詞的後背是位元組跳動令人驚艷的成績:最新資料顯示,抖音在8月的日均影片播放量超過10億次,日均活躍使用者數超過1.5億,月度活躍使用者數超過5億。
影片上傳需要儲存,併進行合規性檢查;影片播放需要編解碼,這需要消耗大量的計算資源;使用者體驗需要恰當的推薦系統與CDN……等等,這些都對抖音背後的IT系統帶來了前所未有的挑戰。據資料顯示,位元組跳動在2017年初的時候只有2~3萬臺伺服器,而今年伺服器數量一下猛增到17萬臺。
這也使得其原有的資料中心租賃樣式徹底不可行,必須自建資料中心,且速度要快。僅7個月時間,位元組跳動就在懷來擁有了第一個屬於自己的資料中心,一系列新技術的採用讓這個資料中心擁有多項頭銜:國內首個大規模分散式全預製、國內首個大平層預製框架結構、國內首個整體電源模組預製、國內首個間接蒸發自然冷卻模組、國內首個計算模組一體化預製。
“數字中國萬裡行”的第三站,我們來到了這個目前國內用時最短而構建起來的資料中心,揭開位元組跳動迅猛發展背後的秘密。
先看一段影片,數字中國萬裡行團隊帶你走進頭條資料中心,體驗身臨其境的感覺:
技術驅動 七個月提前交付
位元組跳動首個已經交付使用的資料中心坐落在懷來官廳湖新媒體產業園。懷來是新能源輸出大縣,70%以上的電能都是水力發電、風能發電和太陽能發電產生的清潔能源,但這之中有50%的清潔能源無法上網,低廉的電價對於資料中心這種耗電大戶而言,具有莫大的吸引力。
而且,懷來年均氣溫只有6.5度,空氣質量也好,利用新風散熱有助於降低資料中心的PUE值,有效降低資料中心的運營成本。高效應用自然冷卻技術,也是官廳湖新媒體產業基地的一大特點,也是首個規模使用間接新風製冷技術的資料中心產業基地。
位元組跳動首個已經交付使用的資料中心一期工程,5萬臺伺服器已經入駐
位元組跳動最初規劃首個資料中心將在9個月內完成,而得益於新媒體產業基地採用的大平層預製建築結構整體規劃,再加上為了追求快速建設以滿足位元組跳動伺服器規模高速增長需求,位元組跳動採用了一系列新銳技術,如大規模分散式全預製、整體電源模組預製、間接蒸發自然冷卻模組、計算模組一體化預製等等技術,讓一期資料中心在7個月內就完成交付使用。
位元組跳動資料中心採用大量預製和模組化產品,體現了資料中心高度模組化的未來發展趨勢。鋼平臺底座、變壓器、配電櫃、UPS裝置均採用在原廠設計、安裝和除錯在20天內分批交付,二次系統連線、監控系統整合和電源模組測試可以在7天內完成,由40尺集裝箱整體運輸到現場,施工現場只需連線電纜,拼裝除錯即可交付使用,這個過程需要十天左右。這一系列的細節時間控制,讓位元組跳動資料中心掃清了國內資料中心建設交付的最短時間記錄。
據位元組跳動技術總監王劍介紹,2017年12月位元組跳動開始在懷來資料中心放置伺服器,目前一期園區約5萬臺伺服器已經投入使用,正在緊鄰一期園區建設二期,規模增加一半但預計工期相同,大概能容納9萬臺伺服器。
位元組跳動預製件與模組化建設資料中心示意圖
資料驅動基礎設施創新
大多數人對“今日頭條”的印象似乎都是一家泛媒體平臺,但位元組跳動則認為自己是一家AI(即人工智慧)公司,因為不管是今日頭條也好,抖音也好,位元組跳動很少自己生產內容,而是鼓勵使用者進行創作,並把使用者創作的內容推薦給最適宜的使用者群體。
所以位元組跳動最核心的系統實際包括頭條推薦系統與廣告系統、評論系統,以及內容合規性審核系統,這背後實際上就是AI技術在不同領域或場景的應用。
比如在在推薦系統裡面最核心的就是內容推薦演演算法。用AI去做推薦,是位元組跳動重要戰略,目前也是應用最廣的技術,不管是今日頭條還是抖音等產品,AI都在裡面發揮著重要作用。使用AI進行推薦,需要大量的資料進行訓練才能達到更好的效果,據介紹,僅今日頭條一款產品30天的訓練模型,其資料量就會超過4PB,而正常訓練一個完整的模型則需要至少一年的資料量。而在影片的合規性審核方面,位元組跳動不但使用計算機視覺技術對影片影象進行分析,同時利用語音識別技術對音訊進行合規性分析。而這些技術的大規模應用會對系統的基礎設施帶來極大的挑戰,比如計算能力、網路頻寬以及儲存效能等等。
隨著位元組跳動資料中心規模的擴大,伺服器數量的高速增長,為了最大化資源利用率,位元組跳動與Intel公司成立了創新實驗室,全部採用Intel最新的可擴充套件處理器平臺,並根據不同應用場景對軟體堆疊進行深層次最佳化。據介紹,成果非常顯著,能夠實現大約30%的能力提升,更好的資源利用率意味著更好的購置成本和運營成本節省。
並且,不管是推薦系統,還是審核系統,其每天都會處理海量的資料,這對底層儲存系統的效能有著苛刻的需求,SSD已經成為位元組跳動的必然選擇。但並不是說使用SSD就能直接解決問題,尤其NVMe SSD使用,通常會給計算、網路系統帶來直接的壓力,將原本儲存的效能瓶頸轉移到計算或者網路。
為了提升整體系統的綜合效能表現,還需要站在更高層次對各個子系統進行系統性最佳化,比如在與Intel的合作中,雙方共同針對人工智慧、Cascade Lake,最新64層Nand儲存技術,高速網路的產品以及FPGA在不同系統中應用進行了探索,並與DPDK、SPDK、BigData以及OS kernel等軟體層的最佳化相結合,取得了極大的進展,獲得了極為顯著的成功。
位元組跳動所取得的輝煌成績不僅意味著中國網際網路市場的巨大潛力,同時也意味著中國資料中心技術的飛速發展正逐步接近國際領先水平。
跟著新至強特快專列的先遣隊伍,走進中國最先進的資料中心,快戳“閱讀原文”!