中国AI芯片性能与美国差距还有多大？

NE时代智能车更新于 2024-08-21 09:37:34

“从性能上来看，或许差距不到1年。”

一位AI领域的资深人士表示。

当然，他这个回复的底气来自于华为即将推出的最新一代AI芯片。

据悉，这款新芯片可与英伟达目前在售的H100相媲美。

当然，英伟达最新发布的B200虽然性能更好，但是量产遇到瓶颈。根据最新消息，该芯片批量交付已经延迟到2025年第一季度。据悉，华为这款芯片计划最早在今年10月开始发货。

根据华尔街日报的报道，目前包括TikTok母公司字节跳动、搜索引擎巨头百度和国有电信运营商中国移动在内的多家公司正在就采购该芯片展开初步谈判。他们表示，华为与潜在客户之间的初步谈判表明，订单可能会超过7万块芯片，总价值约为20亿美元。

01.

难产的英伟达B100/B200 N4芯片

目前看，英伟达B200设计得出，但台积电不一定造得出来。

近日，英伟达被爆延迟出货B200，市场对Blackwell 供应链延迟提出质疑。摩根大通的一篇最新研报表明，英伟达存在B100/B200 芯片和封装 (CoWoS-L) 级别中的一些挑战，以及板级设计和系统级别的问题。

B100/B200 N4 芯片（GB100 芯片）面临一些挑战，主要是因为在 B200 CoWoS 封装中包含了两块相同的芯片，它们的性能（高速级）和功率阈值都很高。这可能需要稍微放宽产品的性能门槛，才能保证芯片的稳定性。换句话说，落地的B200性能大概率应该是小于当初宣传的产品性能的。

此外，由于基于RDL的中介层/LSI制造良率较低，CoWoS-L良率仍然较低且不稳定（摩根大通认为目前仅为60%左右，远低于CoWoS-S的90%以上水平）。CoWoS-L工艺采用石墨膜进行基板级散热，但一些材料变形挑战也导致了一些良率损失。

这可能导致B100 被淘汰，由 B200A 取代。低端产品B100将被性能略低的B200A取代。B200A采用更小的封装，以缓解CoWoS-L产能压力。B200A的引入将导致未来2-3 个季度CoWoS-S需求将增加5-6万片晶圆。

2024 年下半年 GB200 产能提升放缓。GB200产能提升在2024年下半年或将放缓，但预计在2025年大幅扩张。摩根大通认为，上游出货将在2024年第四季度开始，但由于CoWoS-L的产量问题，总出货量可能会受到限制。预计2024年GB200的总出货量在40-50万台之间（相比之前预计的60万台以上）。

02.

英伟达、华为芯片，纸面性能大PK

在一篇名为《Huawei’s HiSilicon Can Compete With Nvidia GPUs In China》的文章中，作者将英伟达的GPU和海思的昇腾910A和昇腾910B GPU进行了比较，并对华为这款最新的外观做了一些猜测，如下图。

点击可看大图

该文章认为，对于两年前的 A800，英伟达所做的只是将GPU内存容量减少了一半，内存带宽减少了 25%，并切换到 PCI-Express 4.0 外形尺寸，将这些设备的共享内存占用限制为通过 NVLink 的两个 GPU，而不是通过 NVLink 的八个 GPU，中间有一组 NVSwitch ASIC。A800 的所有其他馈送和速度与常规 A100 相同。我们怀疑性能有所下降，但幅度并不大。

H100 的GPU性能在大多数指标上提高了1.6倍到 3.4 倍，但英伟达最初将内存容量保持在 80 GB 不变，并将内存带宽提高了64%。功耗增加了75%。

去年针对中国的H800有两个版本。SXM 版本可以通过 NVSwitch 连接，在 FP64 精度下最高可达 1 teraflops，其他方面没有太大变化。PCI-Express 版本的 H800 停用了部分核心，因此性能下降，内存带宽也减少了 39%。去年年底，美国政府认为这还不够好，于是收紧了限制，对计算能力设置了更多上限，但允许 HBM 内存容量和带宽增加（相当矛盾）。SXM2 外形尺寸的 H20 性能并不特别强大，而基于“Lovelace”GPU 架构的 L20 性能更差。

此外，行业研究公司 SemiAnalysis 的分析师Dylan Patel也认为，华为最新AI芯片是一项进步，其性能可能优于 Nvidia的B20（英伟达针对中国市场正在研发的一款芯片）。

他说，如果华为能够成功生产新芯片，而英伟达仍然无法向中国客户提供先进芯片，“英伟达将在中国迅速失去市场份额。”

SemiAnalysis 表示，如果华为不面临美国的额外限制，明年该款芯片可以生产130万至140万片。

03.

从昇腾910到910B

2019 年，华为发布了采用台积电 7nm 工艺节点制造的昇腾 910 芯片。该芯片在中国迅速受到追捧；它被安装在中国政府下属的数据中心，并被纳入众多服务器产品中。但2020 年，美国商务部工业和安全局 (BIS)列入实体名单，并对该公司实施外国直接产品规则 (FDPR)，华为被迫停止与台积电的生产。这种域外管制实际上禁止了外国代工厂生产华为的芯片，削弱了华为生产昇腾910 芯片的能力。

两年后，华为开始销售第二代昇腾910 芯片（称为昇腾910B 系列），该芯片在中国大陆的中芯国际（SMIC）生产，使用中国最先进但产能极其有限的 7nm 芯片。

从第一代昇腾910（320 TFLOPS）到第二代昇腾910B（400 TFLOPS），理论最大性能的提升是相当明显的，但深入分析就会发现，第一代和第二代芯片之间的性能差距并没有看上去那么大。

一般来说，芯片的性能是通过将时钟速度（即芯片每秒可以执行的周期数）乘以芯片的吞吐量（即芯片每个周期可以执行的操作数）来计算的。

根据CSET的分析，第二代昇腾910B 芯片从第一代到第二代昇腾910B 的理论性能提升了 80 TFLOPS，有三个因素造成：其中一半（40 TFLOPS）的提升是由于第二代昇腾910B 的时钟速度更高。提高时钟速度意味着芯片每秒能够循环更多次，从而提高运行速度并带来整体更高的性能。除了每个核心增加一个矢量单元和计算方式变化之外，两代芯片在每个周期的吞吐量几乎相同。

更具体地说，大约四分之一（20 TFLOPS）的提升可以归因于910B 每个核心增加一个矢量单元。

剩下的四分之一（20 TFLOPS）提升，是由于华为计算芯片性能的计算方式发生变化。

资料来源：CSET，昇腾910与昇腾910B TFLOPS 提升因素

CSET分析认为，在第一代和第二代昇腾910芯片之间，华为改变了计算性能的运算方式。尽管第一代芯片似乎能够并行运行矩阵和矢量运算，但华为只将矩阵单元执行的运算计入芯片的峰值性能，不包括矢量单元执行的运算。10然而，对于第二代，华为同时从矩阵和向量单元计算运算。

如果对第一代昇腾910芯片采用同样的核算方式（即把矩阵单元和矢量单元都算入性能），其理论最高性能为340TFLOPS，因此实际理论最高性能提升只有60TFLOPS，而不是80TFLOPS。

如上所述，第二代910B系列使用的活跃AI核心比第一代910 系列少得多，这表明中芯国际的制造工艺存在良率或产能限制。第二代 910B的AI 核心较少可能有两个原因。

第一种可能性是，两代产品都使用了 32 个AI核心，但由于中芯国际7nm工艺的良率较低，每个910B 系列芯片只能激活20-25个核心。

第二种可能性是，华为制造的芯片总 AI 核心较少，因此华为可以利用中芯国际有限的7nm制造产能在每个晶圆上制造更多的芯片。这也可能是为抵消因在芯片中增加更多片上存储器而导致的芯片面积增加而采取的一种措施。

无论是由于中芯国际良率低、产能还是有限，华为减少了910和 910B之间的活跃 AI 核心数量，成功设计出一款可在中芯国际国内生产并供应中国市场的芯片。

CSET认为，要做到这一点，华为至少需要两年时间——从 2020年FDPR 申请到2022年910B系列首次出现在技术文档中——重新设计和在国内制造该芯片。

参考链接：

1、https://www.wsj.com/tech/ai/huawei-readies-new-chip-to-challenge-nvidia-surmounting-u-s-sanctions-e108187a?st=y2x8r500ktwcwv8&reflink=desktopwebshare_permalink

2、https://cset.georgetown.edu/publication/pushing-the-limits-huaweis-ai-chip-tests-u-s-export-controls

3、https://www.nextplatform.com/2024/08/13/huaweis-hisilicon-can-compete-with-nvidia-gpus-in-china/