JavaScript is required

在物理AI进入“ChatGpt”时刻之际,英伟达决定重建“护城河”|CES 2026

英伟达 CES 三大新品揭秘。

在本轮AI浪潮中,英伟达凭借CUDA生态成为最大的赢家。但在以谷歌、Meta为首的反CUDA联盟冲击之下,英伟达的AI“王座”开始出现晃动。谷歌的TorchTPU加上Meta的PyTorch正在不断蚕食英伟达CUDA的份额。同时也标志着,AI算力的竞争从芯片中心主义,开始走向生态中心博弈。

在此背景下,今年CES上,英伟达决定率先打破“自己的规则”,在让AI学会思考并接管物理世界的同时,再次重建自己的“护城河”。Vera Rubin、Cosmos、 Alpamayo三大重磅产品,便是英伟达的“新武器”。

01.

Vera Rubin,推理成本降低至十分之一

推理性能提升五倍

在硬件层面,英伟达不再仅进行单一芯片的升级,而是决定重构整个架构,即Vera Rubin。

黄仁勋指出,当前AI的困境在于"AI的推理成本每年需要下降10倍,而AI‘思考’产生的token数量每年增长5倍”,但由于摩尔定律已经放缓,每年的晶体管增长(约 1.6 倍)已经无法跟上AI模型的需求。同时,新一代的模型不仅要给出答案,还要给出推理过程,未来甚至要具备上下文能力,这也就意味着算力的要求更高,并且成本更高。

所以,Vera Rubin这次从CPU到GPU,再到数据存储都发生了重构。Vera Rubin引入了MV-FP4 张量核心、KV 缓存 context 存储系统和全新的液冷架构,在实现5倍性能提升的同时,还可以应对上下文长对话难题,同时支持45度的热水冷却,无需冷水机组即可运行,比传统方案节省6%的电力。

对比Blackwell,Vera Rubin是基于极端协同设计(Extreme Codesign)的系统级工程方法论,将数据中心视为计算机的基本单位,而非单一芯片。共包括6中相互协作的芯片,分别是Vera CPU、Rubin GPU、Bluefield-4 DPU、Spectrum-X、ConnectX-9和NVLink 6。

具体来看,Vera CPU具有 88 个基于Armv9.2架构定制的Olympus核心(176 个线程),采用空间多线程技术。重点解决了传统CPU在AI工厂环境中无法匹配GPU数据吞吐量的核心痛点。同时,Vera CPU通过超高速NVLink-C2C互联与Rubin GPU实现缓存一致性访问,使得CPU不再是数据预处理的瓶颈。

Rubin GPU在NVFP4精度下实现了50 petaflops的AI推理性能,为Blackwell架构的5倍。但晶体管数量仅增加了 1.6 倍,同时每颗GPU封装了8组HBM4内存,带宽高达22TB/s。训练方面,可以提供35 petaflops算力,较前代提升3.5倍,而训练所需GPU数量减少至Blackwell平台的四分之一。这主要得益于第三代Transformer引擎的硬件加速自适应压缩技术以及大规模混合专家模型(MoE)。

Bluefield-4 DPU是负责存储与安全卸载,并引入了革命性的 KV 缓存(KV Cache)管理功能,解决了制约长序列推理的"显存墙"问题。英伟达通过BlueField-4构建的推理上下文内存存储平台,在每个GPU原有1TB内存基础上,额外增加了16TB的高速共享内存空间。该平台通过200Gb/s的专用带宽与计算单元连接,避免了传统存储的延迟惩罚,使得AI智能体能够维持长达数百万token的连续对话历史和复杂任务状态。

Spectrum-X 硅光子交换机是针对传统可插拔光模块功耗高(约占数据中心网络设备的25%)和可靠性低的问题,英伟达将光学元件与交换芯片共封装,推出全球首款采用集成硅光子技术的以太网交换机,其拥有 512 个端口,可实现5倍能效提升和10倍可靠性提升。可将光学接口的功耗从每比特15皮焦降低至3皮焦。

ConnectX-9 网卡:具备极高的数据吞吐能力,为每个 GPU 提供每秒 1.6 Tb 的扩展带宽。并且集成可编程远程直接内存访问技术和数据路径加速器,允许AI合作伙伴根据自身需求,自定义更加精准的流量控制。

NVLink 6为单个GPU提供3.6TB/s的片间带宽,在Vera Rubin NVL72机架级解决方案中,72个Rubin GPU和36个Vera CPU通过NVLink 6构成全连接拓扑,机架总带宽可以达到惊人的260TB/s。同时,还引入了增强的可服务性和弹性功能,通过实时路由优化和故障隔离机制,确保大规模AI训练任务的持续运行。是Vera Rubin平台实现系统级性能跃升的关键使能技术。

02.

Cosmos,让AI理解物理世界的语言

Cosmos 是由英伟达推出的全球首个世界基础模型。与理解语言逻辑的GPT不同,Cosmos需要理解的是物理世界的语言,比如物理动力学、几何与空间关系、因果关系等。

目前Cosmos已经接受了超过2000万小时的视频数据训练,这些视频涵盖了自然景观、人类运动以及复杂的物理交互,可以让其学习统一的世界表征,将语言、图像、3D场景和动作进行对齐。其采用双重模型,包括实时应用的自回归模型和用于生成高质量视频和图像的扩散模型。

Cosmos最大的贡献是解决了机器人和自动驾驶训练中的物理数据稀缺性难题。其能够生成符合物理定律的高保真合成数据。例如,它可以将交通模拟器的输出转化为真实的环绕视频,供 AI 学习。通过文本提示,可以生成数以亿计的“长尾”罕见场景,帮助自动驾驶系统(如 Alpameo)在虚拟环境中体验并学习如何应对现实中极少发生的危险路况。并且还可以针对某一动作生成多个物理上合理的未来情景(类似于“奇异博士”的预判),帮助模型选择正确的行动路径。

Cosmos可以与物理仿真平台 Omniverse 深度绑定,生成符合现实规律的内容。目前英伟达已经将Cosmos开源。

03.

Alpamayo,英伟达亲自下场做出

全球首个具有思考和推理能力的自动驾驶AI模型

Alpamayo是一个VLA自动驾驶模型,同样从大量人类驾驶演示数据中学习,以符合人类的驾驶习惯。为此,英伟达采用了双重安全技术栈,Alpamayo R1和AlpaSim。其中,Alpamayo R1 –是业界首款用于辅助驾驶的开源 VLA 推理模型,AlpaSim 是一款面向高保真辅助驾驶测试、完全开源的端到端仿真蓝图

与当前的自动驾驶模型最大的不同是,它不仅可以做出规划,还可以实时解释其采取某一行动的原因。这也就意味着,其可以解决当前自动驾驶面临的诸多痛点。

首先是长尾效应难题,Alpameo 通过推理能力,能将从未见过的复杂场景分解为已知的物理常识和知识规则,从而理性地应对突发状况。

其次是结合 Cosmos 世界模型生成的数十亿英里高质量合成数据,Alpameo可以解决众多corner case数据不足的问题,减少数据采集成本。

最后则是AI模型黑盒安全的担忧。通过 Alpameo 与经过 ASIL-D 认证的 Cuda 功能安全计算机及传统栈的结合,AI模型的安全问题便得到了解决。

目前英伟达已经与奔驰达成合作,新款梅赛德斯-奔驰 CLA将搭载该系统。

点击查看全文
评论赞0分享
轨迹
AI英伟达

欢迎关注我们!

上海恩翌信息科技有限公司
1NE时代-小恩
188-1775-0862
沪ICP备17041240号-4