達摩院成功研發(fā)全球首款“存儲計算集成AI芯片”。性能是 10 倍，能效比是 300 倍

發(fā)布時間：2022-03-10作者來源：薩科微瀏覽：2414

12月3日消息，芯智訊消息，阿里巴巴法學院計算機技術(shù)實驗室成功研發(fā)出全球[敏感詞]基于DRAM的3D膠合棧計算存儲一體化AI芯片。該芯片可突破馮諾依曼架構(gòu)的性能瓶頸，滿足人工智能等場景對高帶寬、大容量內(nèi)存、[敏感詞]算力的需求。在部分AI場景下，芯片性能提升10倍以上，能效比提升高達300倍。

達摩院存算一體芯片（芯智訊拍攝）

為何研發(fā)存算一體芯片？

從計算機誕生起，計算機系統(tǒng)就是在馮·諾依曼架構(gòu)下運行。在馮·諾伊曼架構(gòu)中，計算與內(nèi)存是分離的，計算單元從內(nèi)存中讀取數(shù)據(jù)，計算完成后再存回內(nèi)存。特別是隨著人工智能等對性能要求極高的場景爆發(fā)，傳統(tǒng)的馮·諾依曼架構(gòu)的短板開始凸顯，例如功耗墻、性能墻、內(nèi)存墻的問題。

造成這一問題的原因主要有兩點：

一是數(shù)據(jù)搬運帶來了巨大的能量消耗。數(shù)據(jù)顯示，在傳統(tǒng)架構(gòu)下，數(shù)據(jù)從內(nèi)存單元傳輸?shù)接嬎銌卧枰墓氖怯嬎惚旧淼募s200倍，因此真正用于計算的能耗和時間其實占比很低。

二是內(nèi)存性能的發(fā)展遠遠滯后于處理器的發(fā)展。目前，處理器的算力以每兩年3.1倍的速度增長（AI對于算力的需求每兩年提升750倍），能夠處理器的數(shù)據(jù)量也快速增長，但是內(nèi)存的性能每兩年只有1.4倍的提升。

也就是說，即使處理器每秒能夠處理3.1倍的數(shù)據(jù)量，但是由于處理器從內(nèi)存中存取數(shù)據(jù)都是經(jīng)過同一條內(nèi)存總線訪問，而這個內(nèi)存總線如果最多只能通過1.4倍的數(shù)據(jù)量，這也意味著處理器也只能處理1.4倍的數(shù)據(jù)量。內(nèi)存性能限制了處理器性能的提升。

目前內(nèi)存性能的提升速度嚴重滯后于處理器性能提升的速度，這就好比一個漏斗，寬的一端是處理器，而狹窄的一端則是存儲器，后者的性能極大地影響了數(shù)據(jù)傳輸?shù)乃俣龋@也被認為是傳統(tǒng)計算機的阿克琉斯之踵。這一點在AI/HPC計算領域尤為明顯。

如果要突破內(nèi)存墻的瓶頸，就需要一個很好的從系統(tǒng)到芯片的硬件解決方案。而存算一體芯片則是目前解決該問題的[敏感詞]途徑。

存算一體芯片的架構(gòu)類似于人腦，將數(shù)據(jù)存儲單元和計算單元融合為一體，大幅減少數(shù)據(jù)搬運，從而極大提高計算并行度和能效。這一技術(shù)早在90年代就被提出，但受限于技術(shù)的復雜度、高昂的設計成本，以及缺少應用場景，過去幾十年業(yè)界對存算一體芯片的研究進展緩慢。隨著AI場景的爆發(fā)，業(yè)界迫切需要該技術(shù)來解決算力瓶頸，達摩院希望通過自研創(chuàng)新技術(shù)解決業(yè)界難題。

如何實現(xiàn)“存算一體”？

目前實現(xiàn)“存算一體”主要有三種技術(shù)路線：

1. 近存儲計算（Processing Near Memory）：計算操作由位于存儲芯片外部的獨立計算芯片完成。

2. 內(nèi)存儲計算（Processing In Memory）：計算操作由位于存儲芯片內(nèi)部的獨立計算單元完成，存儲單元和計算單元相互獨立存在。

3. 內(nèi)存執(zhí)行計算（Processing With Memory）：存儲芯片內(nèi)部的存儲單元完成計算操作，存儲單元和計算單元完全融合，沒有一個獨立的計算單元。

其中，近存計算通過將計算資源和存儲資源距離拉近，實現(xiàn)對能效和性能的大幅度提升，被認為是現(xiàn)階段能解決內(nèi)存墻問題的[敏感詞]途徑。達摩院本次也是沿著這一方向進行突破。

達摩院有哪些技術(shù)創(chuàng)新？

目前HBM是將內(nèi)存和計算結(jié)合在一起的主要方案之一，但該技術(shù)受限于單位容量帶寬不足和功耗高的缺點，無法有效解決內(nèi)存墻問題。

而混合鍵合(Hybrid Bonding)的3D堆疊技術(shù)擁有高帶寬、低成本的特點，被認為是低功耗、近存計算的完美載體之一。

此次，達摩院研發(fā)的芯片首次采用混合鍵合(Hybrid Bonding)的3D堆疊技術(shù)——將邏輯計算芯片和DRAM存儲芯片face-to-face地用特定金屬材質(zhì)和工藝進行互聯(lián)，實現(xiàn)了炒高片上內(nèi)存帶寬，炒高密度片間互聯(lián)。

最終的測試芯片顯示，這種存算技術(shù)和架構(gòu)的優(yōu)勢明顯，能通過拉近存儲單元與計算單元的距離增加帶寬，降低數(shù)據(jù)搬運的代價，緩解由于數(shù)據(jù)搬運產(chǎn)生的瓶頸，而且與數(shù)據(jù)中心的推薦系統(tǒng)、圖神經(jīng)網(wǎng)絡、大規(guī)模NN訓練，對于帶寬/內(nèi)存的需求完美匹配。

據(jù)芯智訊此前在云棲大會“前沿計算技術(shù)突破論壇”上的了解的信息顯示，該存算一體芯片的片上內(nèi)存帶寬可高達37.5GB/s/mm²，相比傳統(tǒng)芯片，可提供

20倍以上片上內(nèi)存容量和100倍以上內(nèi)存能效比提升。在典型的實際應用中，可實現(xiàn)10倍以上的性能提升和300倍的能效提升。

在設計方面，該芯片內(nèi)存單元采用異質(zhì)集成嵌入式DRAM，擁有超大內(nèi)存容量和超大帶寬優(yōu)勢；計算芯片方面，達摩院研發(fā)設計了流式的定制化加速器架構(gòu)，對推薦系統(tǒng)進行“端到端”加速，包括匹配、粗排序、神經(jīng)網(wǎng)絡計算、細排序等任務。這種近存架構(gòu)也有效解決了帶寬受限的問題，最終內(nèi)存、算法以及計算模塊完美融合，大幅提升帶寬的同時還實現(xiàn)了超低功耗，展示了近存計算在數(shù)據(jù)中心場景的潛力。

得益于技術(shù)的創(chuàng)新性，該芯片的研究成果已被ISSCC 2022收錄。目前，達摩院在存算一體架構(gòu)方向上擁有大量領先成果，在ISCA、MICRO、HPCA等[敏感詞]計算機體系結(jié)構(gòu)會議上發(fā)表多篇論文。

存算一體芯片在海量數(shù)據(jù)計算場景中擁有天然的優(yōu)勢，在終端、邊緣端以及云端都有廣闊的應用前景。例如VR/AR、無人駕駛、天文數(shù)據(jù)計算、遙感影像數(shù)據(jù)分析等場景中，存算一體芯片都可以發(fā)揮高帶寬、低功耗的優(yōu)勢。從長遠來看，存算一體技術(shù)還將成為類腦計算的關(guān)鍵技術(shù)。

針對這一技術(shù)未來有何研發(fā)和應用規(guī)劃？

目前，全行業(yè)對集成存儲-計算機芯片技術(shù)的研究還處于探索階段，在工藝成熟度、典型應用和應用等方面尚不成熟。 '生態(tài)系統(tǒng)。法學院希望逐步攻克技術(shù)難題。內(nèi)存芯片通過縮短存儲單元與計算單元之間的距離，增加帶寬，降低了數(shù)據(jù)處理的成本，緩解了數(shù)據(jù)處理帶來的瓶頸。未來，法學院將在存儲方面征服更多的計算機技術(shù)。在應用方面，未來我們將與阿里巴巴內(nèi)部運營緊密合作，逐步適配和優(yōu)化內(nèi)部AI應用場景。

免責聲明：本文轉(zhuǎn)載自“芯智訊”，本文僅代表作者個人觀點，不代表薩科微及行業(yè)觀點，只為轉(zhuǎn)載與分享，支持保護知識產(chǎn)權(quán)，轉(zhuǎn)載請注明原出處及作者，如有侵權(quán)請聯(lián)系我們刪除。

公司電話：+86-0755-83044319
傳真/FAX：+86-0755-83975897
郵箱：1615456225@qq.com
QQ：3518641314 李經(jīng)理

QQ：202974035 陳經(jīng)理

地址：深圳市龍華新區(qū)民治大道1079號展滔科技大廈C座809室

上一條：2021年全球晶圓銷售額611.3億元，創(chuàng)歷史新高，同比增長超過10%。
下一條：支持H.266及WiFi 6E，聯(lián)發(fā)科發(fā)布全新8K旗艦智能電視芯片Pentonic 2000