本期參考清華大學的“人工智慧晶片研究報告”,全面講解人工智慧晶片,梳理人工智慧晶片的發展現狀、主流企業和場景。
隨著人工智慧晶片的持續發展,應用領域會隨時間推移而不斷向多維方向發展,這裡我們選擇目前發展比較集中的幾個行業做相關的介紹。
AI晶片目前比較集中的應用領域
1、AI晶片應用領域
(1)智慧手機
2017 年 9 月,華為在德國柏林消費電子展釋出了麒麟 970 晶片,該晶片搭載了寒武紀的 NPU,成為“全球首款智慧手機移動端 AI 晶片” ,2017 年 10 月中旬 Mate10 系列新品(該系列手機的處理器為麒麟 970)上市。搭載了 NPU 的華為 Mate10 系列智慧手機具備了較強的深度學習、本地端推斷能力,讓各類基於深度神經網路的攝影、影象處理應用能夠為使用者提供更加完美的體驗。
而蘋果釋出以 iPhone X 為代表的手機及它們內建的 A11 Bionic 晶片。A11 Bionic 中自主研發的雙核架構 Neural Engine(神經網路處理引擎),它每秒處理相應神經網路計算需求的次數可達 6000 億次。這個 Neural Engine 的出現,讓 A11 Bionic 成為一塊真正的 AI 晶片。 A11 Bionic 大大提升了 iPhone X 在拍照方面的使用體驗,並提供了一些富有創意的新用法。
(2) ADAS高階輔助駕駛系統
ADAS 是最吸引大眾眼球的人工智慧應用之一, 它需要處理海量的由鐳射雷達、毫米波雷達、攝像頭等感測器採集的實時資料。相對於傳統的車輛控制方法,智慧控制方法主要體現在對控制物件模型的運用和綜合資訊學習運用上,包括神經網路控制和深度學習方法等,得益於 AI 晶片的飛速發展, 這些演演算法已逐步在車輛控制中得到應用。
(3) 計算機視覺(Computer Vision)裝置
需要使用計算機視覺技術的裝置,如智慧攝像頭、無人機、 行車記錄儀、人臉識別迎賓機器人以及智慧手寫板等裝置, 往往都具有本地端推斷的需要,如果僅能在聯網下工作,無疑將帶來糟糕的體驗。而計算機視覺技術目前看來將會成為人工智慧應用的沃土之一,計算機視覺晶片將擁有廣闊的市場前景。
(4) VR 裝置
VR 裝置晶片的代表為 HPU 晶片, 是微軟為自身 VR 裝置 Hololens 研發定製的。 這顆由臺積電代工的晶片能同時處理來自 5個攝像頭、 1個深度感測器以及運動感測器的資料,並具備計算機視覺的矩陣運算和 CNN 運算的加速功能。這使得 VR 裝置可重建高質量的人像 3D 影像,並實時傳送到任何地方。
(5) 語音互動裝置
語音互動裝置晶片方面,國內有啟英泰倫以及雲知聲兩家公司,其提供的晶片方案均內建了為語音識別而最佳化的深度神經網路加速方案,實現裝置的語音離線識別。穩定的識別能力為語音技術的落地提供了可能; 與此同時,語音互動的核心環節也取得重大突破。語音識別環節突破了單點能力,從遠場識別,到語音分析和語意理解有了重大突破,呈現出一種整體的互動方案。
(6) 機器人
無論是家居機器人還是商用服務機器人均需要專用軟體+晶片的人工智慧解決方案,這方面典型公司有由前百度深度學習實驗室負責人餘凱創辦的地平線機器人,當然地平線機器人除此之外,還提供 ADAS、智慧家居等其他嵌入式人工智慧解決方案。
2、AI晶片國內外代表性企業
本篇將介紹目前人工智慧晶片技術領域的國內外代表性企業。文中排名不分先後。人工智慧晶片技術領域的國內代表性企業包括中科寒武紀、中星微、地平線機器人、深鑒科技、 靈汐科技、 啟英泰倫、百度、華為等,國外包括英偉達、 AMD、 Google、高通、Nervana Systems、 Movidius、 IBM、 ARM、 CEVA、 MIT/Eyeriss、蘋果、三星等。
中科寒武紀:寒武紀科技成立於 2016 年,總部在北京,創始人是中科院計算所的陳天石、陳雲霽兄弟,公司致力於打造各類智慧雲伺服器、智慧終端以及智慧機器人的核心處理器晶片。阿裡巴巴創投、聯想創投、國科投資、中科圖靈、元禾原點、湧鏵投資聯合投資,為全球 AI晶片領域第一個獨角獸初創公司。
寒武紀是全球第一個成功流片並擁有成熟產品的 AI 晶片公司,擁有終端 AI 處理器 IP和雲端高效能 AI 晶片兩條產品線。
2016 年釋出的寒武紀 1A 處理器(Cambricon-1A)是世界首款商用深度學習專用處理器,面向智慧手機、安防監控、無人機、可穿戴裝置以及智慧駕駛等各類終端裝置,在執行主流智慧演演算法時效能功耗比全面超越傳統處理器。
中星微:1999年由多位來自矽谷的博士企業家在北京中關村科技園區建立了中星微電子有限公司, 啟動並承擔了國家戰略專案——“星光中國芯工程”,致力於數字多媒體晶片的開發、設計和產業化。
2016 年初,中星微推出了全球首款集成了神經網路處理器(NPU)的 SVAC 影片編解碼 SoC,使得智慧分析結果可以與影片資料同時編碼,形成結構化的影片碼流。該技術被廣泛應用於影片監控攝像頭,開啟了安防監控智慧化的新時代。自主設計的嵌入式神經網路處理器(NPU)採用了“資料驅動平行計算” 架構,專門針對深度學習演演算法進行了最佳化,具備高效能、低功耗、高整合度、小尺寸等特點,特別適合物聯網前端智慧的需求。
整合NPU神經網路處理器 VC0616結構
地平線機器人(Horizon Robotics):地平線機器人成立於 2015 年,總部在北京,創始人是前百度深度學習研究院負責人餘凱。BPU(Brain Processing Unit)是地平線機器人自主設計研發的高效人工智慧處理器架構IP,支援 ARM/GPU/FPGA/ASIC 實現,專註於自動駕駛、人臉影象辨識等專用領域。
2017年,地平線釋出基於高斯架構的嵌入式人工智慧解決方案,將在智慧駕駛、智慧生活、公共安防三個領域進行應用,第一代 BPU晶片“盤古” 目前已進入流片階段,預計在 2018年下半年推出,能支援 1080P 的高畫質影象輸入,每秒鐘處理 30 幀,檢測跟蹤數百個標的。地平線的第一代 BPU 採用 TSMC 的 40nm工藝,相對於傳統 CPU/GPU, 能效可以提升 2~3 個數量級(100~1,000 倍左右)。
深鑒科技:深鑒科技成立於 2016 年,總部在北京。由清華大學與斯坦福大學的世界頂尖深度學習硬體研究者創立。深鑒科技於 2018 年 7 月被賽靈思收購。深鑒科技將其開發的基於 FPGA 的神經網路處理器稱為 DPU。
到目前為止,深鑒公開釋出了兩款 DPU:亞裡士多德架構和笛卡爾架構,其中,亞裡士多德架構是針對摺積神經網路 CNN 而設計;笛卡爾架構專為處理 DNN/RNN 網路而設計,可對經過結構壓縮後的稀疏神經網路進行極致高效的硬體加速。相對於 Intel XeonCPU 與 Nvidia TitanX GPU,應用笛卡爾架構的處理器在計算速度上分別提高 189 倍與 13 倍,具有 24,000 倍與 3,000 倍的更高能效。
靈汐科技:靈汐科技於 2018 年 1 月在北京成立,聯合創始人包括清華大學的世界頂尖類腦計算研究者。公司致力於新一代神經網路處理器(Tianjic)開發, 特點在於既能夠高效支撐現有流行的機器學習演演算法(包括 CNN, MLP, LSTM 等網路架構),也能夠支撐更仿腦的、更具成長潛力的脈衝神經網路演演算法; 使晶片具有高計算力、高多工並行度和較低功耗等優點。 軟體工具鏈方面支援由 Caffe、 TensorFlow 等演演算法平臺直接進行神經網路的對映編譯,開發友善的使用者互動介面。 Tianjic 可用於雲端計算和終端應用場景,助力人工智慧的落地和推廣。
啟英泰倫:啟英泰倫於2015年 11月在成都成立,是一家語音識別晶片研發商。啟英泰倫的 CI1006是基於 ASIC 架構的人工智慧語音識別晶片,包含了腦神經網路處理硬體單元,能夠完美支援 DNN 運算架構,進行高效能的資料平行計算,可極大的提高人工智慧深度學習語音技術對大量資料的處理效率。
百度:百度 2017 年 8 月 Hot Chips 大會上釋出了 XPU,這是一款 256 核、基於 FPGA 的雲端計算加速晶片。合作伙伴是賽思靈(Xilinx)。 XPU 採用新一代 AI 處理架構,擁有 GPU 的通用性和 FPGA 的高效率和低能耗,對百度的深度學習平臺 PaddlePaddle 做了高度的最佳化和加速。據介紹, XPU 關註計算密集型、基於規則的多樣化計算任務,希望提高效率和效能,並帶來類似 CPU 的靈活性。
華為:麒麟 970 搭載的神經網路處理器 NPU 採用了寒武紀 IP,如圖 12 所示。麒麟 970 採用了 TSMC 10nm 工藝製程,擁有 55 億個電晶體,功耗相比上一代晶片降低 20%。 CPU 架構方面為 4 核 A73+4 核 A53 組成 8 核心,能耗同比上一代晶片得到 20%的提升; GPU 方面採用了 12 核 Mali G72 MP12GPU,在圖形處理以及能效兩項關鍵指標方面分別提升 20%和50%; NPU 採用 HiAI移動計算架構,在 FP16 下提供的運算效能可以達到 1.92 TFLOPs,相比四個 Cortex-A73 核心,處理同樣的 AI 任務,有大約具備 50 倍能效和 25 倍效能優勢。
英偉達(Nvidia):英偉達創立於 1993 年,總部位於美國加利福尼亞州聖克拉拉市。 早在 1999 年, 英偉達發明瞭 GPU,重新定義了現代計算機圖形技術,徹底改變了平行計算。深度學習對計算速度有非常苛刻的要求, 而英偉達的 GPU 晶片可以讓大量處理器並行運算,速度比 CPU 快十倍甚至幾十倍,因而成為絕大部分人工智慧研究者和開發者的首選。自從 Google Brain 採用 1.6 萬個 GPU 核訓練 DNN 模型, 併在語音和影象識別等領域獲得巨大成功以來, 英偉達已成為 AI 晶片市場中無可爭議的領導者。
AMD:美國AMD半導體公司專門為計算機、 通訊和消費電子行業設計和製造各種創新的微處理器(CPU、 GPU、 APU、 主機板晶片組、 電視卡晶片等),以及提供快閃記憶體和低功率處理器解決方案, 公司成立於1969 年。 AMD 致力為技術使用者——從企業、 政府機構到個人消費者——提供基於標準的、 以客戶為中心的解決方案。
2017年12月Intel和AMD 宣佈將聯手推出一款結合英特爾處理器和 AMD 圖形單元的膝上型電腦晶片。目前 AMD 擁有針對 AI 和機器學習的高效能 Radeon Instinc 加速卡,開放式軟體平臺 ROCm 等。
Google:Google 在 2016 年宣佈獨立開發一種名為 TPU 的全新的處理系統。 TPU 是專門為機器學習應用而設計的專用晶片。透過降低晶片的計算精度,減少實現每個計算操作所需電晶體數量的方式,讓晶片的每秒執行的操作個數更高,這樣經過精細調優的機器學習模型就能在晶片上執行得更快,進而更快地讓使用者得到更智慧的結果。 在 2016 年 3 月打敗了李世石和 2017 年 5 月打敗了柯傑的阿爾法狗,就是採用了谷歌的 TPU 系列晶片。
Google I/O-2018 開發者大會期間,正式釋出了第三代人工智慧學習專用處理器 TPU 3.0。TPU3.0 採用 8 位低精度計算以節省電晶體數量, 對精度影響很小但可以大幅節約功耗、加快速度,同時還有脈動陣列設計,最佳化矩陣乘法與摺積運算, 並使用更大的片上記憶體,減少對系統記憶體的依賴。 速度能加快到最高 100PFlops(每秒 1000 萬億次浮點計算)。
高通:在智慧手機晶片市場佔據絕對優勢的高通公司,也在人工智慧晶片方面積極佈局。據高通提供的資料顯示,其在人工智慧方面已投資了 Clarifai 公司和中國“專註於物聯網人工智慧服務” 的雲知聲。而早在 2015 年 CES 上,高通就已推出了一款搭載驍龍 SoC 的飛行機器人——Snapdragon Cargo。
高通認為在工業、農業的監測以及航拍對拍照、攝像以及影片新需求上,公司恰好可以發揮其在計算機視覺領域的能力。此外,高通的驍龍 820 晶片也被應用於 VR頭盔中。事實上,高通已經在研發可以在本地完成深度學習的移動端裝置晶片。
Nervana Systems:Nervana 創立於 2014 年, 公司推出的 The Nervana Engine 是一個為深度學習專門定製和最佳化的 ASIC 晶片。這個方案的實現得益於一項叫做 High Bandwidth Memory 的新型記憶體技術, 這項技術同時擁有高容量和高速度,提供 32GB 的片上儲存和 8TB 每秒的記憶體訪問速度。該公司目前提供一個人工智慧服務“In The Cloud” ,他們聲稱這是世界上最快的且目前已被金融服務機構、醫療保健提供者和政府機構所使用的服務。 他們的新型晶片將會保證 Nervana 雲平臺在未來的幾年內仍保持最快的速度。
Movidius(被Intel收購):2016 年9月,Intel 發表宣告收購了 Movidius。 Movidius 專註於研發高效能視覺處理晶片。其最新一代的 Myriad2 視覺處理器主要由 SPARC 處理器作為主控制器,加上專門的DSP 處理器和硬體加速電路來處理專門的視覺和影象訊號。這是一款以 DSP 架構為基礎的視覺處理器,在視覺相關的應用領域有極高的能耗比,可以將視覺計算普及到幾乎所有的嵌入式系統中。
該晶片已被大量應用在 Google 3D 專案的 Tango 手機、大疆無人機、 FLIR 智慧紅外攝像機、海康深眸系列攝像機、華睿智慧工業相機等產品中。
IBM:IBM 很早以前就釋出過 watson,投入了很多的實際應用。除此之外,還啟動了類腦晶片的研發, 即 TrueNorth。TrueNorth 是 IBM 參與 DARPA 的研究專案 SyNapse 的最新成果。 SyNapse 全稱是Systems of Neuromorphic Adaptive Plastic Scalable Electronics (自適應可塑可伸縮電子神經系統,而 SyNapse 正好是突觸的意思),其終極標的是開發出打破馮·諾依曼體系結構的計算機體系結構。
ARM:ARM 推出全新晶片架構 DynamIQ,透過這項技術, AI 晶片的效能有望在未來三到五年內提升 50 倍。
ARM的新CPU架構將會透過為不同部分配置軟體的方式將多個處理核心集聚在一起,這其中包括一個專門為 AI 演演算法設計的處理器。晶片廠商將可以為新處理器配置最多 8 個核心。同時為了能讓主流 AI 在自己的處理器上更好地執行, ARM 還將推出一系列軟體庫。
CEVA:CEVA 是專註於 DSP 的 IP 供應商,擁有眾多的產品線。其中,影象和計算機視覺 DSP產品 CEVA-XM4是第一個支援深度學習的可程式設計 DSP,而其釋出的新一代型號 CEVA-XM6,具有更優的效能、更強大的計算能力以及更低的能耗。CEVA 指出,智慧手機、汽車、安全和商業應用,如無人機、自動化將是其業務開展的主要標的。
MIT/Eyeriss:Eyeriss事實上是MIT的一個專案,還不是一個公司, 從長遠來看,如果進展順利,很可能孵化出一個新的公司。Eyeriss 是一個高效能的深度摺積神經網路(CNN)加速器硬體,該晶片內建 168 個核心,專門用來部署神經網路(Neural Network),效能為一般 GPU 的 10 倍。其技術關鍵在於最小化 GPU 核心和記憶體之間交換資料的頻率(此運作過程通常會消耗大量的時間與能量):一般 GPU 內的核心通常共享單一記憶體,但 Eyeriss 的每個核心擁有屬於自己的記憶體。
目前, Eyeriss 主要定位在人臉識別和語音識別,可應用在智慧手機、穿戴式裝置、機器人、自動駕駛車與其他物聯網應用裝置上。
蘋果:在 iPhone 8 和 iPhone X 的釋出會上,蘋果明確表示其中所使用的 A11 處理器集成了一個專用於機器學習的硬體——“神經網路引擎 ”, 每秒運算次數最高可達6000 億次。這塊晶片將能夠改進蘋果裝置在處理需要人工智慧的任務時的表現,比如面部識別和語音識別等。
三星:2017年,華為海思推出了麒麟 970 晶片,據知情人士透露,為了對標華為,三星已經研發了許多種類的人工智慧晶片。 三星計劃在未來三年內新上市的智慧手機中都採用人工智慧晶片,並且他們還將為人工智慧裝置建立新的元件業務。三星還投資了Graphcore、深鑒科技等人工智慧晶片企業。