服務(wù)熱線
0755-83044319
發(fā)布時間:2022-11-14作者來源:薩科微瀏覽:2196
今年10月,IBM發(fā)布了旗下[敏感詞]人工智能計算單元(Artificial Intelligent Unit,AIU)片上系統(tǒng),這是一種專用集成電路 (ASIC),旨在更快、更高效地訓(xùn)練和運(yùn)行需要大規(guī)模并行計算的深度學(xué)習(xí)模型。
AIU:專為現(xiàn)代AI計算打造
在過去多年來,業(yè)界主要是利用CPU、GPU來運(yùn)行深度學(xué)習(xí)模型,但是隨著人工智能模型的數(shù)量正呈指數(shù)級增長,同時深度學(xué)習(xí)模型也越來越龐大,有數(shù)十億甚至數(shù)萬億的參數(shù),需要的算力也是越來越高,而CPU、GPU這類傳統(tǒng)架構(gòu)的芯片的AI算力增長已經(jīng)遇到了瓶頸。
△
深度神經(jīng)網(wǎng)絡(luò)對于算力的需求增長迅速
根據(jù) IBM 的說法,深度學(xué)習(xí)模型傳統(tǒng)上依賴于 CPU 和 GPU 協(xié)處理器的組合來訓(xùn)練和運(yùn)行模型。CPU 的靈活性和高精度非常適合通用軟件應(yīng)用程序,但是,在訓(xùn)練和運(yùn)行需要大規(guī)模并行 AI 操作的深度學(xué)習(xí)模型時,CPU卻處于劣勢。GPU最初是為渲染圖形圖像而開發(fā)的,但后來該技術(shù)發(fā)現(xiàn)了在AI計算中使用的優(yōu)勢。但是,CPU和GPU都是在深度學(xué)習(xí)革命之前設(shè)計的,現(xiàn)在他們的效率增長已經(jīng)落后于深度學(xué)習(xí)對于算力的指數(shù)級增長,業(yè)界真正需要的是針對矩陣和向量乘法運(yùn)算類型進(jìn)行優(yōu)化的通用芯片來進(jìn)行深度學(xué)習(xí)。
基于此,IBM Research AI Hardware Center在過去五年中一直專注于開發(fā)下一代芯片和人工智能系統(tǒng),希望以每年將人工智能硬件效率提高 2.5 倍,并能夠在 2029 年以比 2019 年快1000倍的速度訓(xùn)練和運(yùn)行人工智能模型。而[敏感詞]AIU芯片則是IBM推出的[敏感詞]針對現(xiàn)代 AI 統(tǒng)計數(shù)據(jù)定制的芯片。
IBM表示,AIU是專為加速深度學(xué)習(xí)模型使用的矩陣和向量計算而設(shè)計和優(yōu)化。AIU 可以解決計算復(fù)雜的問題,并以遠(yuǎn)遠(yuǎn)超過 CPU 能力的速度執(zhí)行數(shù)據(jù)分析。
那么IBM AIU是如何實現(xiàn)針對深度學(xué)習(xí)優(yōu)化的呢?答案是:“近似計算”+“簡化人工智能工作流程”。
擁抱低精度,采用近似計算
從歷史上看,很多AI計算依賴于高精度 64 位和 32 位浮點運(yùn)算。IBM 認(rèn)為AI計算并不總是需要這種精確度。它有一個降低傳統(tǒng)計算精度的術(shù)語——“近似計算”。在其博客中,IBM 解釋了使用近似計算的基本原理:
“對于常見的深度學(xué)習(xí)任務(wù),我們是否需要這種準(zhǔn)確度?我們的大腦是否需要高分辨率圖像來識別家庭成員或貓?當(dāng)我們輸入一個文本線程進(jìn)行搜索時,我們是否需要第 50,002 個最有用的回復(fù)與第 50,003 個最有用的回復(fù)的相對排名的精度?答案是,包括這些示例在內(nèi)的許多任務(wù)都可以通過近似計算來完成?!?
基于此,IBM 首創(chuàng)了的一種稱為近似計算的技術(shù),可以從32位浮點運(yùn)算下降到包含四分之一信息的混合8位浮點(HFP8) 計算格式。這種簡化的格式極大地減少了訓(xùn)練和運(yùn)行 AI 模型所需的數(shù)字運(yùn)算量,并且不會犧牲準(zhǔn)確性。
更精簡的位格式還減少了另一個對速度的拖累:只需將更少的數(shù)據(jù)移入和移出內(nèi)存,即運(yùn)行AI模型對于內(nèi)存的占用更少了。
IBM在其新的AIU芯片的設(shè)計當(dāng)中融入了近似計算技術(shù),使得AIU芯片的精度需求大幅低于 CPU 所需的精度。較低的精度對于在新的 AIU 硬件加速器中實現(xiàn)高計算密度至關(guān)重要。AIU使用混合 8 位浮點 (HFP8) 計算,而不是通常用于 AI 訓(xùn)練的32位浮點或16位浮點運(yùn)算。較低精度的計算使芯片的運(yùn)行速度比 FP16 計算快 2 倍,同時提供類似的訓(xùn)練結(jié)果。
雖然低精度計算對于獲得更高的密度和更快的計算是必要的,但深度學(xué)習(xí) (DL) 模型的精度必須與高精度計算保持一致。
簡化人工智能工作流程
由于大多數(shù) AI 計算都涉及矩陣和向量乘法,因此IBM AIU芯片架構(gòu)具有比多用途 CPU 更簡單的布局。IBM AIU還針對將數(shù)據(jù)直接從一個計算引擎發(fā)送到另一個計算引擎進(jìn)行設(shè)計,從而節(jié)省大量能耗。
據(jù)IBM介紹,其AIU芯片是一個完整的片上系統(tǒng),是基于IBM此前的Telum芯片(7nm工藝)中內(nèi)置的經(jīng)過驗證的 AI 加速器的擴(kuò)展版本,并且采用了更先進(jìn)的5nm制程工藝,具有 32 個處理內(nèi)核并包含 230 億個晶體管。IBM AIU 還被設(shè)計為像顯卡一樣易于使用。它可以[敏感詞]任何帶有 PCIe 插槽的計算機(jī)或服務(wù)器。
IBM表示,“部署 AI 對照片中的貓和狗進(jìn)行分類是一項有趣的學(xué)術(shù)活動。但它不會解決我們今天面臨的緊迫問題。我們要讓 AI 解決現(xiàn)實世界的復(fù)雜性——比如預(yù)測下一個颶風(fēng)伊恩,或者我們是否正在走向衰退——我們需要企業(yè)級的工業(yè)級硬件。我們的 AIU 讓這一愿景更近了一步?!?br style="margin: 0px; padding: 0px; outline: 0px; max-width: 100%; box-sizing: border-box !important; overflow-wrap: break-word !important;"/>
IBM AIU表現(xiàn)如何?
IBM并未在其官網(wǎng)公布更多關(guān)其AIU芯片的技術(shù)信息。不過,我們可以通過回顧 IBM在 2021 年國際固態(tài)電路會議(ISSCC)上展示其早期 7nm 芯片設(shè)計的性能結(jié)果時的初始原型演示來對其性能有所了解。
IBM 用于會議演示的原型不是 32 個內(nèi)核,而是一個實驗性的 4 核 7nm AI 芯片,支持 FP16 和混合FP8 格式,用于訓(xùn)練和推理深度學(xué)習(xí)模型。它還支持用于擴(kuò)展推理的 int4 和 int2 格式。2021 年 Lindley Group通訊中包含了原型芯片性能的摘要,該通訊報道了 IBM 當(dāng)年的演示:
在峰值速度下,使用 HFP 8,該7nm芯片實現(xiàn)了每秒每瓦特 (TF/W) 1.9 teraflops。
使用INT4進(jìn)行推理,該實驗芯片達(dá)到16.5 TOPS/W,優(yōu)于高通低功耗Cloud AI模組。
考慮到IBM AIU是該測試芯片的擴(kuò)展版本,并且制程工藝也升級到了5nm,因此預(yù)計其整體能效將進(jìn)一步提升,同時隨著核心數(shù)量由4核上升到32核,其整體的峰值算力有望提升超過8倍。
Forbes的分析師認(rèn)為,由于缺乏信息,無法將IBM的AIU與目前被用于AI計算的GPU相比較。但是,預(yù)計該芯片的價格將會在1500 美元到 2000 美元之間。
免責(zé)聲明:本文采摘自“芯智訊”本文僅代表作者個人觀點,不代表薩科微及行業(yè)觀點,只為轉(zhuǎn)載與分享,支持保護(hù)知識產(chǎn)權(quán),轉(zhuǎn)載請注明原出處及作者,如有侵權(quán)請聯(lián)系我們刪除。
友情鏈接:站點地圖 薩科微官方微博 立創(chuàng)商城-薩科微專賣 金航標(biāo)官網(wǎng) 金航標(biāo)英文站
Copyright ?2015-2024 深圳薩科微半導(dǎo)體有限公司 版權(quán)所有 粵ICP備20017602號-1