服務(wù)熱線
0755-83044319
發(fā)布時(shí)間:2022-09-07作者來(lái)源:薩科微瀏覽:2266
近期,清華大學(xué)集成電路學(xué)院錢鶴、吳華強(qiáng)教授課題組聯(lián)合斯坦福大學(xué)、加州大學(xué)圣地亞哥分校(UCSD)、圣母大學(xué)等在《自然》(Nature)發(fā)表了題為“A compute-in-memory chip based on resistive random-access memory”的研究論文,報(bào)道了一款基于憶阻器(阻變存儲(chǔ)器)的存算一體芯片NeuRRAM。該芯片具有可重新配置的計(jì)算核心(reconfiguring CIM cores),可以兼容不同的模型結(jié)構(gòu),與之前[敏感詞]的憶阻器存算一體芯片相比,能效提升兩倍,在多種人工智能任務(wù)中的推理準(zhǔn)確率與四位量化權(quán)重的軟件模型結(jié)果相當(dāng)。
在邊緣設(shè)備上實(shí)現(xiàn)復(fù)雜的人工智能應(yīng)用要求硬件具有很高的能量效率,基于憶阻器的存算一體(Compute-In-Memory , CIM)系統(tǒng)可以將模型權(quán)重存儲(chǔ)在憶阻器陣列中,通過(guò)在器件內(nèi)進(jìn)行計(jì)算,顯著降低數(shù)據(jù)搬運(yùn)帶來(lái)的能耗。[敏感詞]的研究已經(jīng)證明在全集成憶阻器存算一體系統(tǒng)上實(shí)現(xiàn)矩陣向量乘法的可行性,然而現(xiàn)有的硬件設(shè)計(jì)無(wú)法同時(shí)滿足高能效、高通用性、高準(zhǔn)確率的應(yīng)用需求,并且這三個(gè)特性需要在不同的抽象層次協(xié)同優(yōu)化。因此,如何設(shè)計(jì)一個(gè)具有高能效比、支持不同網(wǎng)絡(luò)結(jié)構(gòu)、準(zhǔn)確率與軟件結(jié)果相媲美的硬件系統(tǒng)成為憶阻器存算一體芯片在實(shí)際場(chǎng)景中應(yīng)用的關(guān)鍵。
針對(duì)這一技術(shù)難點(diǎn),研究團(tuán)隊(duì)對(duì)芯片算法、系統(tǒng)、架構(gòu)、電路與器件進(jìn)行了全層次協(xié)同優(yōu)化設(shè)計(jì):器件層面,實(shí)現(xiàn)300萬(wàn)個(gè)具有高模擬可編程性的憶阻器與CMOS電路的單片集成;電路層面,提出電壓模神經(jīng)元電路,支持可變精度計(jì)算、激活操作、低功耗模數(shù)轉(zhuǎn)換;架構(gòu)層面,提出雙向TNSA(transposable neurosynaptic array)架構(gòu),以最小的面積、能耗開銷實(shí)現(xiàn)靈活的數(shù)據(jù)流重構(gòu);系統(tǒng)層面,48個(gè)CIM核心支持多種權(quán)重映射方案,提高推理任務(wù)并行度;算法層面,利用多種硬件-算法協(xié)同優(yōu)化方案,降低硬件非理想特性對(duì)準(zhǔn)確率的影響。
可重構(gòu)的憶阻器存算一體架構(gòu)
在不同的網(wǎng)絡(luò)模型中,數(shù)據(jù)流的模式有所不同。例如,卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)中的數(shù)據(jù)在網(wǎng)絡(luò)層之間單向流動(dòng),長(zhǎng)短期記憶網(wǎng)絡(luò)(long short-term memory, LSTM)所處理的時(shí)間數(shù)據(jù)需要在不同的時(shí)間步循環(huán)通過(guò)同一網(wǎng)絡(luò)層,概率圖模型(probabilistic graphical model)中概率采樣在網(wǎng)絡(luò)層之間往復(fù)進(jìn)行。團(tuán)隊(duì)提出了一種TNSA架構(gòu),包含負(fù)責(zé)模擬計(jì)算的憶阻器陣列和負(fù)責(zé)模數(shù)轉(zhuǎn)換與激活的CMOS神經(jīng)元電路,二者組成交錯(cuò)核心(interleaved corelet)。CMOS神經(jīng)元與憶阻器陣列交叉排布,通過(guò)具有開關(guān)控制的共享位線(bit-line, BL)、字線(word-line, WL)在行、列方向互聯(lián),在節(jié)約面積、能耗的同時(shí),實(shí)現(xiàn)了數(shù)據(jù)流的靈活控制。通過(guò)合理選擇權(quán)重映射方案,充分利用48個(gè)核心的數(shù)據(jù)并行和模型并行,可以將推理任務(wù)的吞吐率[敏感詞]化。
高效的電壓模神經(jīng)元電路
傳統(tǒng)的憶阻器陣列通常采用電流模方案:基于歐姆定律,輸入為電壓值,計(jì)算結(jié)果通過(guò)輸出電流體現(xiàn)。然而,同時(shí)開啟多行器件會(huì)導(dǎo)致過(guò)大的陣列電流,從而限制“列并行性”;調(diào)整ADC以適應(yīng)輸出的動(dòng)態(tài)范圍需要多個(gè)時(shí)鐘周期,從而限制“行并行性”。電壓模方案可以顯著提升計(jì)算并行度和能效比。在電壓模方案中,輸出信號(hào)線浮空,其電壓值為輸入信號(hào)線電壓的加權(quán)平均。本工作提出的神經(jīng)元電路利用采樣電容存儲(chǔ)輸出信號(hào)線的電荷、利用積分電容實(shí)現(xiàn)結(jié)果累加。電壓模神經(jīng)元電路有效降低外圍電路的面積和功耗,自動(dòng)實(shí)現(xiàn)動(dòng)態(tài)范圍歸一化,并通過(guò)整合模數(shù)轉(zhuǎn)換與激活功能實(shí)現(xiàn)緊湊設(shè)計(jì),極大提升能量、面積效率,提高計(jì)算吞吐率。
硬件-算法的協(xié)同優(yōu)化方案
現(xiàn)有研究的實(shí)驗(yàn)結(jié)果通常是在軟件中加入器件特性而仿真獲得的,在軟件仿真中忽略某些非理想特性會(huì)使預(yù)測(cè)結(jié)果過(guò)分樂(lè)觀。與之前工作不同的是,本文報(bào)道的結(jié)果均在硬件上測(cè)量獲得。硬件-算法的協(xié)同優(yōu)化方案包含模型驅(qū)動(dòng)芯片校準(zhǔn)技術(shù)(model-driven chip calibration)、抗噪聲網(wǎng)絡(luò)訓(xùn)練與模擬權(quán)重編程技術(shù)(noise-resilient neural-network training and analogue weight programming)、環(huán)漸進(jìn)式模型微調(diào)技術(shù)(chip-in-the-loop progressive model fine-tuning)。模型驅(qū)動(dòng)芯片校準(zhǔn)技術(shù)利用真實(shí)的權(quán)重與輸入數(shù)據(jù),對(duì)輸入電壓幅度、ADC偏移量等條件進(jìn)行校準(zhǔn);抗噪聲網(wǎng)絡(luò)訓(xùn)練與模擬權(quán)重編程技術(shù)采用添加高斯噪聲的非量化權(quán)重訓(xùn)練網(wǎng)絡(luò),并在憶阻器陣列中直接存儲(chǔ)高精度的權(quán)值,提升權(quán)重存儲(chǔ)密度與推理準(zhǔn)確率;環(huán)漸進(jìn)式模型微調(diào)技術(shù)通過(guò)每次僅部署一層網(wǎng)絡(luò)權(quán)重,并利用硬件的輸出結(jié)果,在軟件上對(duì)后續(xù)網(wǎng)絡(luò)層進(jìn)行訓(xùn)練,從而對(duì)當(dāng)前編程層的非理想性進(jìn)行補(bǔ)償。
NeuRRAM系統(tǒng)具有數(shù)據(jù)流可重構(gòu)的TNSA架構(gòu)、電壓模神經(jīng)元電路、算法-硬件協(xié)同優(yōu)化方案,在多個(gè)人工智能任務(wù)中實(shí)現(xiàn)了與軟件結(jié)果相當(dāng)?shù)耐评頊?zhǔn)確率。通過(guò)在全部硬件設(shè)計(jì)層次上進(jìn)行創(chuàng)新,NeuRRAM提高了現(xiàn)有憶阻器存算一體系統(tǒng)的能效、靈活性和準(zhǔn)確性,其優(yōu)化思路可以廣泛應(yīng)用于其他非易失存儲(chǔ)器的設(shè)計(jì)中。隨著阻變存儲(chǔ)器的內(nèi)存容量不斷增加,這種協(xié)同優(yōu)化方案將顯著提升邊緣設(shè)備的性能、效率和通用性,讓云端任務(wù)在邊緣端的部署成為可能。
該項(xiàng)成果由清華大學(xué)、斯坦福大學(xué)與UCSD合作完成,清華大學(xué)集成電路學(xué)院的吳華強(qiáng)教授和高濱教授是本文的共同通訊作者。集成電路高精尖創(chuàng)新中心工程師吳大斌與清華大學(xué)集成電路學(xué)院已畢業(yè)博士生章[敏感詞]參與完成了主要電路設(shè)計(jì)、器件優(yōu)化與芯片集成工藝的研究工作。清華大學(xué)錢鶴、吳華強(qiáng)團(tuán)隊(duì)長(zhǎng)期從事憶阻器存算一體技術(shù)的相關(guān)研究,在器件集成和芯片設(shè)計(jì)等方面取得了多項(xiàng)突破性進(jìn)展,曾在2020年ISSCC上發(fā)表了國(guó)際[敏感詞]基于模擬型憶阻器的全系統(tǒng)集成存算一體芯片,并在同年《自然》期刊發(fā)表了國(guó)際[敏感詞]多憶阻器陣列的存算一體芯片,并在持續(xù)探索先進(jìn)工藝下的憶阻器集成技術(shù)。
免責(zé)聲明:本文轉(zhuǎn)載自“芯系清華”,本文僅代表作者個(gè)人觀點(diǎn),不代表薩科微及行業(yè)觀點(diǎn),只為轉(zhuǎn)載與分享,支持保護(hù)知識(shí)產(chǎn)權(quán),轉(zhuǎn)載請(qǐng)注明原出處及作者,如有侵權(quán)請(qǐng)聯(lián)系我們刪除。
友情鏈接:站點(diǎn)地圖 薩科微官方微博 立創(chuàng)商城-薩科微專賣 金航標(biāo)官網(wǎng) 金航標(biāo)英文站
Copyright ?2015-2024 深圳薩科微半導(dǎo)體有限公司 版權(quán)所有 粵ICP備20017602號(hào)-1