歡迎光臨
每天分享高質量文章

詳解記憶體運算架構、挑戰和趨勢

一、計算架構和儲存的瓶頸

 

隨著人工智慧計算的需求劇增,現有計算架構遭遇功耗牆、效能牆、記憶體牆、摩爾定律趨緩等挑戰迫切需要計算架構的創新,解決路徑主要體現在兩點:突破計算架構和打破儲存牆。

 

計算架構的創新一直是爭論的焦點,在應用上湧現的GPU、FPGA、ASIC、類腦甚至於3DSoC等,都是想打破適應性、效能、功效、可程式設計性和可擴充套件性等5個硬體特性的瓶頸,任何一個架構都不會在5個特性都達到最優。

 

杜克大學陳怡然教授在2018人工智慧計算大會上的觀點我比較認同,拋開哪個架構最優,適合你的業務場景、資料型別、支出成本的架構,能讓你的企業跑起來賺到錢的就是好的架構。

 

計算架構更新資金成本的提高、時間成本的延長和複雜度的提升,促使學術界和產業界轉向研究“如何打破儲存牆”,解決路徑好多種,包括:

 

1. 高頻寬的資料通訊

高速SerDes:點對點的序列通訊提升傳輸速度

光互連:訊號間無感應、無幹擾、速率高、密度大替代電互聯,2.5D/3D堆疊技術:搭積木,不改變現有產品製程的基礎上提高單位芯片面積內的電晶體數量,處理器周圍堆疊更多的儲存器件

 

2. 資料靠近計算

增加快取級數:處理器和主存插入高速快取,相對來說快取越大速度越快,但成本高。

高密度片上記憶體:EDRAM動態隨機存取記憶體、PCM相變儲存的靜態和非晶體轉換

 

3. 存內運算

近資料計算:離資料更近的邊緣側進行計算處理。

存算一體:片外高頻寬記憶體HBM、高頻寬儲存(3D-Xtacking,儲存單元和外圍電路在不同晶園獨立加工)和片內(在儲存器顆粒本身的演演算法嵌入)。

 


二、存算一體的原理、優劣勢和應用

 

1.原理

馮諾伊曼架構是計算機的經典架構,同時也是目前計算機以及處理器晶片的主流架構。在馮諾伊曼架構中,計算/處理單元與記憶體是兩個完全分離的單元:計算/處理單元根據指令從記憶體中讀取資料,在計算/處理單元中完成計算/處理,並存回記憶體。

 

存內運算的主要改進就是把計算嵌入到記憶體裡面去,記憶體變成儲存+計算的利器,在儲存/讀取資料的同時完成運算,減少了計算過程中的資料存取的耗費。把計算都轉化為帶權重加和計算,把權重存在記憶體單元中,讓記憶體單元具備計算能力。

 

記憶體內計算對於人工智慧晶片帶來什麼影響?首先,存內計算本質上會使用模擬計算,計算精度會受到模擬計算低信噪比的影響,通常精度上限在8bit左右,而且只能做定點數計算(精確到整數),難以做浮點數(精確到小數點)計算。

 

所以,需要高計算精度的人工智慧訓練市場並不適合記憶體內計算,換句話說記憶體內計算的主戰場是在人工智慧推理市場。即使在人工智慧推理市場,由於精度的限制,記憶體內計算對於精度要求較高的邊緣伺服器計算等市場也並不適合,而更適合嵌入式人工智慧等對於能效比有高要求而對於精確度有一定容忍的市場。

 

第二,存內計算其實最適合本來就需要大儲存器的場合。舉例來說,Flash在IoT等場景中本來就一定需要,那麼如果能讓這塊Flash加上記憶體內計算的特性就相當合適,而在那些本來儲存器並不是非常重要的場合,為了引入記憶體內計算而加上一塊大記憶體就未必合適,因此,存內計算有望成為未來嵌入式人工智慧(如智慧IoT)的重要組成部分。

 

第三,存算一體晶片解決計算瓶頸問題,本質是乘積累加運算(Multiply Accumulate, MAC)操作加快的體現。乘積累加運算是在數字訊號處理器或一些微處理器中的特殊運算,現在是在儲存器實現此運算操作的硬體電路單元,被稱為“乘數累加器”。這種運算的操作,是將乘法的乘積結果和累加器A的值相加,再存入累加器,以節省整個乘加操作的執行延遲。

 

2.驅動力

存算一體的商業驅動力,換句話說為什麼火了,主要是源於深度學習對儲存器的需求、深度學習易於平行計算、深度學習市場潛力推動人工智慧發展、摩爾定律的成本越來越高。

 

杜克大學陳怡然教授指出存內計算為什麼火了:是因為出現了以深度學習為代表的應用。一個典型運算包括兩個運算輸入和一個運算操作。之前的很多科學計算應用兩輸入都是實時產生的,存內計算意義不大。神經網路的權重是固定的,只有輸入是實時產生的,才產生了將權重存在記憶體,等外部輸入進入後再計算的存內計算的需求。

 

3.型別及優劣勢

(1)片外儲存(基於數字晶片和儲存器配合的存算一體)

 

①高頻寬記憶體HBM:

對於GPU來講,採用3D的DRAM和GPU金屬線連線,提高通訊速度(900GB/S),但功耗高、成本高。

 

對於其他晶片來說,用SRAM替代HBM(3D DRAM)降低能耗和提升讀寫速度,成本高。這種情況用大量的SRAM可以匹配大量的MPU和CPU等處理器,提升執行的效率。


②新型儲存拓寬記憶體:

使用新型儲存器佈局在處理器周圍拓展記憶體,比如磁儲存(MRAM)降低成本、提升儲存密度,斷電資料不丟失,工藝僅多提高3-4層MASK,效能有效提升,達到約10Tops/W(每瓦特10萬億次運算)。

 

(2)片記憶體儲(數模混合的存算一體化)

 

片記憶體儲就是在儲存器顆粒嵌入演演算法權重MAC,將儲存單元具備計算功能,平行計算能力強,加上神經網路的對於計算精度的誤差容忍度較高(儲存位數可根據應用調整),因此存內計算數字和模擬混合即使帶來誤差對於符合的應用效能和能效比合適,帶來存內計算和人工智慧尤其深度學習的廣泛結合。

 

①相變儲存PCM

相變儲存器通常是改變加熱時間促進硫族化合物在晶態和非晶態巨大的導電性差異來儲存資料,相變時間100-1000ns,可擦寫次數達到108,現在新型材料湧現的越來越多。

 

②阻變儲存器/憶阻器 RRAM/Memristor

憶阻器,是一種有記憶功能的非線性電阻,它的電阻會隨著流過的電流而改變。在斷電之後,即使電流停止了,電阻值仍然會保持下去,直到反向電流透過,它才會傳回原狀。所以,透過控制電流變化可以改變它的阻值,然後例如將高阻值定義為“1”,低阻值定義為“0”,就可以實現資料儲存功能。人們通常將它用於構建高密度非易失性的阻變儲存器(RRAM)。

 

憶阻器網路,與生物大腦的神經網路相似,可以同時處理許多工。最重要的是,它無需反覆行動資料。它可以並行地處理大量訊號,特別適合於機器學習系統。程式設計時間大概10-1000ns,可程式設計次數106-1012次。

 

③浮柵器件

浮柵器件工藝成熟,程式設計時間10-1000ns,可程式設計次數105次,儲存陣列大,實現量產運算精度高、密度大、效率高、成本低,適宜深度學習和人工智慧使用。

 

3.晶片最佳化策略

 

終端存算一體晶片推理應用需要更低的成本、更低的功耗,對於精度、通用性要求不高。

雲端存算一體晶片訓練應用需要通用性、速度和精度要求,因此目前存算一體晶片精度不高情況下適宜前端的嵌入式應用。

 

4.存算一體晶片挑戰

 

(1)現有浮柵器件儲存不適合計算,需要最佳化和改進。

(2)新型儲存器的進展挑戰浮柵器件,會有更適合存算一體的可能。

(3)存算一體目前在8bit運算精度,在適宜的條件下需提升運算精度,比如Nor Flash做到10bit。

(4)存算一體晶片與開發環境、架構和現有工藝的相容需要市場和時間。

(5)效能與場景結合需要落地。

 

5.存算一體的未來

 

(1)低精度但準確的乘法和累加運算帶來端的效率提升,晶片成本降低,目前Nor Flash在40nm/55nm工藝下即可,但Nor 會一定程度限定應用,不過未來開發更最佳化器件和工藝就可突破。

(2)存算一體晶片的投資機構包括軟銀、英特爾、微軟、博世、亞馬遜甚至美國政府,中國存算一體的知存科技將獲得下一輪的投資,同時還有清華憶阻器的新憶科技。

(3)存算一體晶片第一代產品都瞄準語音,未來都將切入安防和細分市場,但。

(4)存算一體企業樣式應分為兩種樣式:一是銷售IP,二是做AI存算一體晶片,前者單純IP日子將非常難過。未來還是做晶片吧!不過各類競爭也不小。

(5)目前存算一體的極限效率為>300Tops/W(8bit),現在工業界差距較大5-50Tops/W,進步空間大。

(6)浮柵器件在摩爾定律帶動下朝著更高工藝發展,比如從40-14nm過渡,效能將大幅提升。新型儲存器將從28-5nm工藝過渡,提升工藝效能。

(7)儲存器工藝將朝著2X甚至10X及結構最佳化提升存算一體效能。

 

6.存算一體的應用

 

低功耗持續執行的物聯網裝置,比如智慧家居、可穿戴裝置、移動終端及感知計算、智慧城市需要的低功耗邊緣計算裝置。

 

三、存算一體的重要玩家

 

1.IBM

IBM在相變儲存(PCRAM)裡實現神經網路計算的功能,利用新型儲存器件的模擬計算功能來實現神經網路的計算。

 

2.加州大學聖芭芭拉分校謝源教授

謝源教授的研究團隊在新型儲存器件ReRAM(阻變儲存)裡面做計算的功能,讓儲存器件做神經網路的計算,稱之為PRIME架構。2018年謝源團隊和新竹清華大學張孟凡教授團隊以及北京清華大學劉勇攀教授團隊和汪玉教授團隊合作,把PRIME的架構在150nm工藝下流片,在阻變儲存陣列裡實現了計算儲存一體化的神經網路,功耗降低20倍,速度提高50倍。

謝源教授和三星儲存研究部門推出DRISA架構就是在DRAM的工藝上,實現了摺積神經網路的計算功能。

 

3.加利福尼亞州歐文市的Syntiant

位於美國加利福尼亞州的AI晶片初創企業Syntiant打造一類全新的超低功耗、高效能深度神經網路處理器,Syntiant的神經決策處理器(Neural Decision Processor,NDP)沒有傳統處理器架構的限制,使用模擬神經網路,該網路可以透過極高的記憶體效率實現極低的功耗,並且具有大規模並行乘法累加計算的能力。Syntiant聲稱與傳統的數字儲存架構相比,使用整個網路的類比電路,希望達到20TOPS/W,Nvidia Volta V100 GPU可以達到0.4TOPS/W,NPD的效率提高提高了約50倍。

 

Syntiant的第一批產品已經成功流片,該公司在2018年早些時候演示了一個原型NDP,它可以同時支援數十種應用程式定義的音訊和關鍵字分類,使開發人員能夠建立定製的始終線上的語音使用者介面。同時,該處理器針對音訊資料速率進行了最佳化,能夠進行揚聲器識別,音訊事件檢測、環境分類、感測器分析,並開始研發其第二代晶片,將擴大Syntiant技術在影片方面的應用,該晶片是20 tera-operations/watt 的NPD,計劃於2019上半年開始提供樣品。2018年10月Syntiant獲得由M12(前身為微軟風險投資公司)領投的2500萬美元B輪融資,其它戰略投資者包括亞馬遜Alexa基金、應用創投(Applied Ventures)、英特爾資本、摩托羅拉解決方案風險投資、博世風投。

 

4.德克薩斯州奧斯汀的Mythic

Mythic環繞著帶有可程式設計數位電路的模擬快閃記憶體陣列,標的是每次乘法和累加運算僅消耗0.5焦耳,每瓦特可支援約4萬億次操作(TOPS/W)。2018年3月,Mythic宣佈完成了由SoftBank Ventures領導的4000萬美元的投資,以幫助將高速,低功耗AI晶片推向市場。Lockheed Martin Ventures對Mythic進行了戰略投資。此輪融資包括來自Mythic現有投資者Draper Fisher Jurvetson,Lux Capital,Data Collective和AME Cloud Ventures。Sun Microsystems聯合創始人Andy Bechtolsheim(曾是谷歌的早期投資人)也有所參與。Mythic計劃在今年年底之前出廠第一批矽片樣品,並於2019年全面投產。

 

 

5.知存科技

知存科技成立於2017年10月的知存科技,成為國記憶體算一體的標誌企業,獲得兆易創新、啟迪方信、科大訊飛等投資,第一款晶片預計2019年量產,面向超低功耗語音識別,將達到三十倍功耗降低,三倍生產成本降低,未來將開發影片和影象AI晶片和加速卡、人機互動物聯網晶片。

 

6.新憶科技

新憶科技成立於2018年,清華大學背景,致力於憶阻器的研發和產業化,清華華控投資。

 

參考文獻:

1.《記憶體內計算,下一代計算的新正規化?》 來源:中國電子報。作者:李飛

2.《存算一體AI晶片的架構創新與技術挑戰》 來源:知存科技公開課。作者:知存科技CEO 王紹迪

贊(0)

分享創造快樂