?英偉達AI芯片A100 A800 H100 H800 B200，不要再傻傻分不清！

發(fā)布時間：2024-06-20作者來源：薩科微瀏覽：4787

今年3月份，英偉達發(fā)布了Blackwell B200，號稱全球最強的 AI 芯片。它與之前的A100、A800、H100、H800有怎樣的不同?

1.英偉達GPU架構(gòu)演進史

我們先回顧一下，歷代英偉達AI加速卡的算力發(fā)展史：

[敏感詞]代AI加速卡叫Volta ，是英偉達[敏感詞]次為AI運算專門設(shè)計的張量運算（Tensor Core）架構(gòu)。

第二代張量計算架構(gòu)叫圖靈（Turing），代表顯卡T4。

第三代張量運算架構(gòu)安培（Ampere），終于來到我們比較熟悉的A100系列顯卡了。

在芯片工藝升級的加持下，單卡SM翻倍到了108個，SM內(nèi)的核心數(shù)和V100相同，但是通過計算單元電路升級，核心每一個周期可以完成256個浮點數(shù)乘累加，是老架構(gòu)的兩倍。加入了更符合當(dāng)時深度學(xué)習(xí)需要的8位浮點（FP8）運算模式，一個16位浮點核心可以當(dāng)作2個8位浮點核心計算，算力再翻倍。主頻稍有下降，為1.41GHz。因此最后，A100顯卡的算力達到了V100的近5倍，為108*8*256*1.41GHz*2 =624 TFLOPS (FP8)。

Ampere 架構(gòu)

第四代架構(gòu)Hopper，也就是英偉達去年剛發(fā)布、OpenAI大語言模型訓(xùn)練已經(jīng)采用、且因算力問題被禁運的H100系列顯卡。

該顯卡的SM數(shù)（132個）相較前代并未大幅提升，但是因為全新的Tensor Core架構(gòu)和異步內(nèi)存設(shè)計，單個SM核心一個周期可以完成的FP16乘累加數(shù)再翻一倍，達到512次。主頻稍微提高到1.83GHz，最終單卡算力達成驚人的1978 Tera FLOPS（FP8)，也即首次來到了PFLOPS（1.97 Peta FLOPS）領(lǐng)域。

Hopper 架構(gòu)

第五代架構(gòu)Blackwell，在這個算力天梯上又取得了什么樣的進展呢？根據(jù)公開的數(shù)據(jù)，如果采用全新的FP4數(shù)據(jù)單元，GB200在將能在推理任務(wù)中達到20 Peta FLOPS算力。將其還原回FP8，應(yīng)該也有驚人的10 PFLOPS，這相對H100提升將達到5倍左右。

公開數(shù)據(jù)顯示，Blackwell的處理器主頻為2.1GHz。假設(shè)架構(gòu)沒有大幅更新，這意味著Blackwell將有600個SM，是H100的接近4倍。Blackwell有兩個Die，那么單Die顯卡的SM數(shù)也達到了H100的2倍。

可以說，每一代架構(gòu)的升級，單個GPU算力實現(xiàn)數(shù)倍增長。這里，我們將從Volta架構(gòu)至今的算力天梯進展圖列表如下，方便大家查閱：

2. A100 VS A800，H100 VS H800

為什么有A100還要A800呢？先說說背景

2022年10月，美國出臺了對華半導(dǎo)體出口限制新規(guī)，其中就包括了對于高性能計算芯片對中國大陸的出口限制。并且以NVIDIA的A100芯片的性能指標作為限制標準；即同時滿足以下兩個條件的即為受管制的高性能計算芯片：

（1）芯片的I/O帶寬傳輸速率大于或等于600 Gbyte/s；

（2）“數(shù)字處理單元原始計算單元”每次操作的比特長度乘以TOPS 計算出的的算力之和大于或等于4800TOPS。

這也使得NVIDIA A100/H100系列、AMD MI200/300系列AI芯片無法對華出口。

為了在遵守美國限制規(guī)則的前提下，同時滿足中國客戶的需求，英偉達推出A100的替代產(chǎn)品A800。從官方公布的參數(shù)來看，A800主要是將NVLink的傳輸速率由A100的600GB/s降至了400GB/s，其他參數(shù)與A100基本一致。

2023年，英偉達發(fā)布了新一代基于4nm工藝，擁有800億個晶體管、18432個核心的H100 GPU。同樣，NVIDIA也推出了針對中國市場的特供版H800。

實際上，A800在互聯(lián)帶寬，即 N 維鏈和鏈路部分做了調(diào)整，從 A100的600G/s 降到了400G/s。但是在其他方面，如雙精、單精、半精等在 AI 算力方面并沒有變化。

相對而言，H800則做了較大的調(diào)整。它不僅在鏈路方面進行了調(diào)整，保持了 8條的 NVlink，雙向互聯(lián)帶寬仍為400G，并且對雙精度算力進行了幾乎歸零的處理。這對 HPC 領(lǐng)域來說非常關(guān)鍵，因為 FP64的雙精度算力直接減少到了一，也就是說幾乎不讓你使用了。

接下來，我們來看一下閹割后對哪些業(yè)務(wù)有很大的影響。

大模型戰(zhàn)場: A800閹割后降低了大模型的訓(xùn)練的效率, A800 SXMM 主要是 GPU 卡之間的數(shù)據(jù)傳輸效率降低,帶寬降低 33%。以 GPT-3 為例, 規(guī)模達到 1750 億, 需要多張 GPU 組合訓(xùn)練, 如果帶寬不足則使性能下降約 4 成 (出現(xiàn) GPU 算力高需要等待數(shù)據(jù)的情況), 考慮到 A 800 和 H 800 性價比, 國內(nèi)用戶還是傾向于 A 800。由于閹割后的 A800和 H800在訓(xùn)練效率上有所下降，因為他們需要在卡之間交互訓(xùn)練過程中的一些數(shù)據(jù)，所以他們的傳輸速率的降低導(dǎo)致了他們的效率的降低。

HPC 領(lǐng)域: A800 和 A100 在雙精方面算力一致, 所以在高性能科學(xué)計算領(lǐng)域沒有影響, 但是可惡的是 H800 直接將雙精算力直接降到了 1 TFLOPS, 直接不讓用了；這對超算領(lǐng)域的影響還是很大的。

所以影響是顯而易見的，在 AIGC 、HPC 領(lǐng)域中，國內(nèi)的一些企業(yè)可能會被國外的企業(yè)拉開一定的差距。這是可預(yù)見到的，所以說在一些情況下，如果我們要計算能力要達到一定的性能，它的投入可能會更高。此外，我們只能從國外借殼，通過成立分公司的方式，把大模型訓(xùn)練的任務(wù)放在國外，我們只是把訓(xùn)練好的成果放在國內(nèi)去用就可以了。但是，這只是一種臨時性的方案，特別是面臨數(shù)據(jù)出境風(fēng)險。

3.后話

眾所周知，目前美國對中國的芯片限制越來越嚴格，在GPU上面也是如此。

2022年美國禁掉了高性能GPU芯片，包括A100、H100等，而2023年又禁掉了A800、H800、L40、L40S，甚至連桌面端顯卡RTX 4090都禁了。

因此，國內(nèi)科技企業(yè)也積極調(diào)整產(chǎn)業(yè)策略，為未來減少使用英偉達芯片做準備，從而避免不斷調(diào)整技術(shù)以適應(yīng)新芯片的巨大代價。阿里和騰訊等云廠商將一些先進的半導(dǎo)體訂單轉(zhuǎn)移給華為等本土公司，并更多地依賴其內(nèi)部開發(fā)的芯片，百度和字節(jié)跳動等企業(yè)也采取了類似措施。顯然，國內(nèi)企業(yè)選擇“英偉達+自研+國產(chǎn)芯片”三管齊下進行探路。

免責(zé)聲明：本文采摘自網(wǎng)絡(luò)，本文僅代表作者個人觀點，不代表薩科微及行業(yè)觀點，只為轉(zhuǎn)載與分享，支持保護知識產(chǎn)權(quán)，轉(zhuǎn)載請注明原出處及作者，如有侵權(quán)請聯(lián)系我們刪除。

上一條：晶圓代工巨頭臺積電創(chuàng)始人張忠謀
下一條：創(chuàng)造歷史！英偉達登頂全球市值第一，美科技股三巨頭總市值近10萬億美金