蔚来王启研详解SkyOS·天枢:面向AI时代的整车全域操作系统

NE时代智能车

阅读 5271    更新于2024-07-29 20:27:47

7月27日,在 NIO IN 2024 蔚来创新科技日,蔚来创始人、董事长、CEO 李斌宣布全球首颗 5nm 智能驾驶芯片——神玑 NX9031 流片成功。

作为业界首款采用 5nm 车规工艺制造的高阶智能驾驶芯片,蔚来“神玑 NX9031”芯片和底层软件均已实现自主设计。神玑 NX9031 拥有超过 500 亿颗晶体管,不论是综合能力还是执行效率,一颗自研芯片能实现四颗业界旗舰芯片的性能。

李斌还宣布蔚来历时4年研发、投入超过23,000人月、面向AI打造的汽车智能化底座——整车全域操作系统 SkyOS·天枢正式全量发布。

此外,基于 AI 核心底层能力打造的全新 Banyan 3 智能系统也进行了发布。

本文是第一篇,主要介绍SkyOS,后续还会有对全新Banyan 3和世界模型NWM进行详解。

以下是蔚来数字系统副总裁王启研的演讲全文。

01.

整车全域操作系统的需求

大家好,我是王启研,第一次跟大家见面,之前一直在忙着打地基,我们打地基的人不善言辞,大家多多见谅!我说的这个地基就是操作系统,它是一切数字系统的底座,大家可以听到各种操作系统的概念,本质上来讲,操作系统就是一个,应用层以下、硬件以上,一个特殊的软件来理和控制硬件和软件的资源。如果将它比作交响乐团,操作系统就是其中的指挥官,可以来调节各种乐器,使它们完美的配合,演奏出美妙和谐的乐章。事实上我们生活当中都离不开操作系统,像是手机、平板、电脑、云服务都和操作系统息息相关。

车作为一个智能设备更加离不开操作系统,早期的车是一个纯粹的机械设备,并不运行任何的软件,随着电子技术的不断发展,在70年代各种零部件上开始采用了软件控制。在2003年Autosar的出现,应用在各种底盘的控制当中,之后随着导航、娱乐系统的发展,安卓、QNX这些原来在手机和嵌入式系统上使用的操作系统,逐渐在车上被采用。可是这些面向零部件的操作系统由不同的公司开发,没有办法做到从底层真正的打通。

汽车历史上还从来没有出现一个完整意义的整车全域操作系统。随着汽车已经进入了AI时代,一辆智能电动汽车实际上就是一个AI的智能体。它像人一样能够具备完整的感知、思考和执行的能力。而操作系统就是这个AI智能体的灵魂,那么这个面向AI整车全域操作系统需要具备哪些具体的要求呢?

首先就是高带宽。AI智能体需要通过收集感知数据来理解周围的环境,随着AI能力的不断提升,所传输的数据量也会大幅增加。斌哥在NIO Day上发布了ET9,它配备了31个传感器,每秒可以传输43.85G的数据,为用户提供更加强大、更加安全的智驾体验的同时,其也对操作系统的吞吐量提出了更高的要求。

我们认为支持高带宽将会成为面向AI的操作系统一个最基本的要求,达到千兆主干网万兆吞吐量会变成一个及格线

其次,低延时和高带宽同等重要,高速驾驶安全第一,能否避免事故有时就在一米的距离。智能驾驶系统有能力帮助驾驶员作出反应,反应越快安全性就越高高速驾驶为例,120公里的速度如果可以提升30毫秒的响应速度,就可以提前一米刹停。所以面向AI面向智驾的操作系统,必须要实现超低延时。

第三,算力是AI的基础。斌哥刚刚讲过蔚来拥有行业第一的智驾算力,最强的座舱算力,以及行业首创的Nio-Box可升级算力,构成了异构算力的资源池,需要一套操作系统可以高效的管理起这些异构算力资源,灵活分配给不同的应用,实现整车的算力共享,将算力资源用到极致。

在年初,蔚来交付了行业独有的4D舒适底盘,它将智驾、导航、云端、悬架、车控、感知的能力紧密联系在了一起,这样才为用户提供了最舒适的驾驶体验。在AI时代,智能应用都是跨域的,需要有一套可以支持整车跨域融合的系统,打破域之间的壁垒,高效调用整车的能力,实现整体性能和体验的最好的优化。

我们已经为蔚来一代、二代的用户10余种车型,一共推送了117个不同的OTA版本,未来通过不同的品牌服务不同的用户,进入全球更多的地区服务,超过十年以上的全生命周期的运营。这样更加频繁的OTA升级,将会是整车必备的能力。

数据闭环和群体智能可以快速提升算法和智驾的能力。我们相信在AI时代,数据闭环和算法模型的持续更新,会成为智能电动汽车的行业标准。在发布的ET9上,我们首次实现了线控底盘技术,这是行业第一,为用户提供了平流层飞行般的驾驶体验,提供智能功能的同时保证最高的安全性和可靠性。

为此,操作系统也应当扮演安全基座的角色支持很多包括像是系统冗余、主动监控、安全隔离、自我恢复在内的立体化的高可靠性机制。智能系统的能力会不断地增强,代替人做更多的感知思考执行的任务。那么由人来负责的,比如说看路、刹车、加速,将会被智能系统代替。如果智能系统万一被黑客所控制的话,那么可能会造成更加严重的后果,所以越智能的系统越需要体系化的信息安全保障能力AI能够用数据为用户提供更加智能、更加定制化的体验,那么保护用户的隐私也变得尤为重要。

总体来看,我们认为面向AI时代的整车全域操作系统,必须满足7个核心要求:高带宽数据吞吐,超低延时通信,支持大算力和异构硬件,实现跨域融合,全生命周期的灵活进化,高可靠性保障,以及体系化的信息与隐私保护。

02.

SkyOS·天枢如何满足整车需求

下面我来介绍一下如何来构建这样一个OS来满足这些核心的要求。

去年NIO IN上,斌哥分享了SkyOS·天枢的整体架构,它是一个面向AI的整车全域操作系统,由三层“1+4+N”的技术架构组成,最下面离硬件最近的是我们的虚拟化SkyOS-H,中间是四个核心的操作系统内核,包括SkyOS-L、SkyOS-M、SkyOS-R、SkyOS-C,它们具有不同的能力和特性,组合在一起就可以完美地支持整车不同类型应用的需求。

最上面一层是一套功能强大,高性能的中间件,将整个SkyOS·天枢体系紧密地联系起来。

接下来我来介绍一下SkyOS·天枢的各个细节。先来看,SkyOS-H虚拟化,它是一个面向复杂场景,高性能、高可靠性的虚拟化系统。H虚拟化用来管理和调度整车的大算力资源,为各种业务提供安全隔离的运行环境。

如果把整个车的算力想象成一个大的房子,一个资源池,虚拟化技术就是把这个房子分割成不同功能的小的房间,有的是厨房、客厅、卧室,来满足不同的用途、不同的需要,它的性能是非常重要的,决定了我们能否把硬件资源用到极致。为此,我们在性能上做了非常多的深度优化。

首先看一下延时方面,任务的执行需要一系列的系统终端访问不同的硬件资源,像是CPU、磁盘、网络设备等等。位于中间的虚拟化系统负责处理和传递这些终端消息。在SkyOS-H当中,对于中断消息做了非常细致的分类,设计了特殊的处理墙,快速处理路径将实时任务的端到端执行时间减少了50%。

多线程是实现并行线处理的机制,多线程的吞吐量越高,可以处理的任务就越多。通过多种内核机制的深度优化将多线程的吞吐量提升了40%以上。

虚拟磁盘的吞吐量会直接影响到我们对大数据的处理能力。简单来讲,吞吐量越高,我们可以在单位时间内读写的数据就会越多,可以更快完成数据相关的功能操作。比如说OTA可以更快,车手互联可以更加顺畅。我们通过大量的底层优化,将磁盘吞吐量提升了15%。

我们来看一个在真实硬件上虚拟化磁盘操作的比较,这是一个实验室场景的录屏,屏幕的左边是KVM,是一个非常强大的开源虚拟化工具,很多大的公司像是谷歌、亚马逊都在使用。右边是我们的SkyOS-H,我们用同样的硬件和同样的测试代码,来看一下谁的吞吐量更大。

大家可以看到,这个非常明显,无论是读取速度还是写入速度,SkyOS的性能都稳定地高于KVM,这就意味着我们可以更加高效和利用管理整车的资源。

03.

SkyOS的内核

接下来从SkyOS-L开始,介绍一下内核的部分,SkyOS-L是面向MCU小算力芯片的轻量化OS,它支持所有主流的车载MCU芯片架构,也是在车上部署最为广泛的SkyOS内核,可靠性是最重要的指标之一。

要保证不同优先级的实效消息,都能够准时的送达,这个技术难度是非常大的,恰巧车上又有非常多的实时性、可靠性要求高的信号。为了来展示一下我们的技术的先进性,这里给大家做一个演示。

左边是Autosar,行业最通用的车载OS,BBA等很多公司都在使用,右侧是SkyOS-L。可以看到每一侧有三个队列,其中每一个横条代表一个消息,它会从上到下发送出来,消息和消息之间的距离越一致,表示整个系统的稳定性就越好。我们现在有高中低三组不同的消息来发送,我们可以看到Autosar对于高优先信号的处理还是比较稳定的,可以看到中、低优先级准确到达率就会明显下降,导致在车上的控制不会很及时,不会很稳定。

相比较而言,SkyOS-L对高中低三种优先级信号,可以稳定地发挥。

下面再看一下微内核架构的SkyOS-M,使用在中央大脑当中,主要运行车辆控制相关的功能,包括车身、底盘、悬架等等。

微内核架构的一个核心优势就是安全隔离。 在设计上,我们采用了模块的方式来构建整个操作系统,保证任何的异常都不会影响到该模块以外其他的部分。这样可以达到更强的系统鲁棒性。我们做到了有两类CPU隔离,两级的内存隔离,五类的IO接口隔离,以及25种核心服务的隔离。

举个例子,如果在赤壁之战当中,曹操的连锁战船有安全隔离,就不会一把火全军覆没。不过,光有安全隔离还是不够的,我们要有快速恢复的能力,把最上层应用的影响降到最低。所以我们在安全隔离的基础之上,实现了四层监控和三层恢复的安全机制,并通过全链路的上下文备份做到快速可靠的全系统自恢复。

我们来做一个比较。这边是Linux,每个方块都是系统服务,系统服务是相互关联的,右边是我们的SkyOS-M,它的服务是相互隔离的。两个OS我们都让它们运行同样的程序,来看一下当出现问题的时候,两个系统是如何反应的。

我们可以看到,当出现问题的时候,SkyOS-M的影响是局部的,上层应用受到的影响也非常的小,可以很快恢复。而在Linux这边,它的影响是波及整个系统的,系统和应用恢复的时间要比SkyOS-M提高一百多倍。通过这种方式可以为整个车机系统提供更可靠、高鲁棒性的安全保障。

接下来是SkyOS-R,它主要是应用在智能驾驶领域,有很强的端到端延时的要求。 比如从应用到网络另一侧的执行器,端到端的延时,一定要控制在1毫秒以内 ;我们的目标是建立一个可以支持各种丰富应用场景,提供高实时性保障的OS。为了达到这个目标,我们也是做了非常多内核级别的实时性优化。

举个例子,中断处理的优化简单介绍一下,在中断处理当中,调度器扮演了非常重要的角色,它决定了哪些外部事件可以优先被处理。我们通过对调用返回的大量优化,很大程度上提升了调度器可抢占窗口的大小,让更高优先实时性要求的任务可以更快地完成执行。这就好比说在机场,我们对机场的安检体制进行优化,可以让安检排队的队伍变得更短,让需要更早到登机口的旅客更快地过安检。

我们和Linux发行版做了一个比较,可以看到SkyOS-R在轻负载状况下,实时性比Linux高113倍,在高负载情况下,性能高出20倍。当底层OS可以提供更高的实时性保障,在构建智驾功能的时候,就会更加有底气。

最后介绍SkyOS-C。SkyOS-C可能是和用户距离最近的OS,承载了绝大多数智能座舱的功能,是车上AI应用和智能体验的发动机。

我们在SkyOS-C当中,搭建了原生智能运行时,来高效地支持基于大模型的应用,以及包括NOMI在内的AI智能体验。

AI智能化的重要基础包含了算力和模型。我们在把车上算力用到极致的同时,也要充分利用云端更大的算力和模型。要做到在用户无感知的情况下无缝调用云端的资源,我们一定要做到超低延时的车云一体化。

边缘云可以利用就近原则,让车辆就近来使用最近的基础设施,大大降低了通信延时。我们可以从这张图上看到,蔚来已经在大部分的省市地区部署了边缘云,可以覆盖超过90%的蔚来用户,将通信延时降低一半以上。而且可以把最低延时降低到25毫秒。

04.

SkyOS·天枢的中间件

下面我们来看一下SkyOS·天枢的中间件,中间件是实现分层解耦、跨域融合的关键,也是我们来支持全生命周期升级和信息安全保障的基础。

我们一共构建了40多个中间件,类似于一个工具箱,车上功能的开发,所需要的工具在这里都可以找到。

为了实现分层解耦,我们将整车抽象出1600多个原子能力,以服务和API的形式提供给各域功能来调用。大家可以想象,1600多个原子能力相互之间调用,它们之间的关系将会是非常非常复杂的。所以我们需要一个框架来支持整车原子能力的管理和调用,这就是SkyOS·天枢的SOA框架。就像是一个高级的厨房,蔬菜、肉类、调料、厨房各种食材像是一个一个独立的服务单元,比如说我们要做一道青椒炒牛肉,青椒和牛肉都是组合使用的服务单元。在SOA这个框架下,厨房可以根据不同的顾客要求,灵活地选择和搭配食材来制作菜品,可以做到井井有条,有条不紊。

我们自研的SOA框架,可以最好地提供快速的服务发现、可靠的远程调用、高带宽通信、精准的访问控制,以及弹性化的部署。

访问控制就像对食材的使用做严格的管控,比如说有过敏症状的顾客,我们要保证他的菜里面不能使用任何的过敏食材,这是访问控制的作用。我们在开始设计SOA框架的时候,发现行业中没有一个通信里面的通信协议栈满足跨域通信的要求。我们定义了蔚来自己的高性能跨域通信协议,命名为TOX,意思是Talks Over X。它的含义在于它可以适用于所有的网络类型,以及所有的通讯终端。

TOX可以提供高带宽、高容量、低延时、高可靠性的通信,比传统的CAN总线可以提升30-50倍,比传统的车载通信协议SOME/IP比较,端到端延时降低了40%,零丢包的阈值提升了109%。

我们展示一下实际的效果,首先是高可靠性,衡量的标准就是丢包率,丢包率越低说明传输的可靠性越高。这个演示当中,中间是一个LED屏,有64乘64的像素,每个像素代表了500个数据包的传输结果,如果成功地收到了这500个所有的数据包,相应的像素就会被点亮,如果500个数据包当中的任何一个包丢失的话,这个像素就会保持不亮。屏幕的上半部分是TOX的结果,下半部分是传统行业协议的SOME/IP的结果, I中间代表了传输成功的次数,我们来看一下,在不同带宽传输的情况下,两者丢包的比较。

大家可以看到,TOX传输的可靠性明显高于SOME /IP,即使在最极端的情况下,非常高带宽传输的情况下,TOX也可以做到可靠传输不丢包,为车提供最佳、可靠、可信的通信协议。

在延时方面也做了一个对比,左边是SOME/IP,右边是TOX协议,让两边同时开始传输同样大小的数据,看看谁可以先把数据传完。

让大家见笑了,左边这个照片是我被斌哥通知演讲稿还要再改一次的时候,大家抓拍的照片,右边是材料通过时的照片。当然对低延时的追求不是为了自拍,而是为用户提供更加可信、可靠的安全系统,用一个具体的例子来说明我们自研的TOX协议,可以为用户带来哪些价值。

这是一个具体的AEB的设计,通过我们自研的SOA和TOX协议,我们可以将AEB刹停的端到端执行时间降低一半,可以大幅缩短AEB的刹车距离,为用户提供更加安全的保障。

除了更低延时,更可靠的数据传输,我们也需要实现数据闭环机制,车上有很多的数据源,多种不同的数据类型,比如说周期性的数据、事件驱动的数据,日志数据等等。根据数据使用方式,每一个数据流都有相应的配置来定义数据采集的触发机制。这些机制必须要可以远程按需动态的配置,我们蔚来开发的数据闭环可以达到这个目标。我们对收集的数据都做了脱敏处理,来保证用户的隐私。

这个数据可以看到,我们数据闭环机制的能力是非常强大的,既可以做到群体监控,也可以做到非常精准的数据挖掘。

对于常用常新,我们的目标是实现以月为单位的整车迭代,以周为单位的平台迭代,以天为单位的模块迭代,为了实现这个目标,不但需要SkyOS·天枢中间件的支撑,也需要全研发周期当中工具链的支持,话说关云长有青龙偃月刀,我们的工程师们也需要有称手的工具,才可以事半功倍。

以一个原子模块开发为例,我们在设计阶段,利用了自研的DPLM系统,做模块的接口设计和版本管理。在开发阶段,我们利用skyOS IDE和whitecloak做代码开发和规范校验。在集成阶段,利用Rocket做全自动的CICD和流水线的观察检测。在测试阶段,我们利用TMS系统做测试运力的自动生成,而且是一键式的测试执行和结果收集。在发布阶段,我们利用SAM系统做到所有制品的统一管理和释放。我们介绍了很多SkyOS·天枢对于数据驱动的支持,下面我们来讲一下如何来做到保障数据安全。

信息安全是最薄弱的一环,任何一个安全的薄弱点都可能是被黑客攻击的对象,所以体系化、全方位的安全机制是至关重要的。蔚来是首家实现单车PKI的公司,可以做到最彻底的密钥隔离,最细颗粒度的访问控制,我们利用安全硬件作为信任链的基础实现了安全启动,安全密钥管理,安全OTA,以及多种数据脱敏和隐私保护的机制。

因为我们的安全机制都是自研的,可以打造以车为中心的安全生态,包括手机可穿戴设备、云、充换电设备成为一个真正的安全化体系。 这个是我们信息安全和隐私保护的架构图,可以做到多维度的安全和隐私保护。

这是蔚来整车全域操作系统SkyOS·天枢,满足了高带宽、低延时、大算力与异构硬件跨域融合,灵活持续进化,高可靠性信息安全等核心要求。

SkyOS·天枢是首个面向AI的整车全域操作系统,构建了 “1+4+N”的技术集群,覆盖了智能驾驶、智能座舱、整车全域的需求,打造了多场景、高性能、高可靠性的硬件资源池,完美支持了各种场景的SkyOS-H、SkyOS-M、SkyOS-L、SkyOS-R、SkyOS-C,以及功能强大的SkyOS中间件。支持整车跨域融合,高带宽、低延时的自研TOX协议,灵活持续进化和数据闭环体系化的安全机制,和面向AI的智能化的支持。

我们一起看一下SkyOS·天枢在代客换电场景下的一个真实的应用。我们左边是一个真实的体验场景,右边是SkyOS·天枢实时运行的情况。

在执行不同任务的时候,SkyOS·天枢可以调度车内外不同系统的能力,把大家紧密地协调整合在一起,做到车、手、站、云全方位能力的综合调度,实现真正的一杯咖啡的功夫可以满电出发的体验。我们认为,这样AI驱动的综合体验,只是一个开始,我们将通过做好操作系统的底层能力支持更多这样的AI体验。

这就是蔚来整车全域操作系统——SkyOS·天枢,面向AI,全域、全栈自研。加上蔚来首个车规级5nm 智能驾驶芯片神玑NX9031,蔚来真正做到了有“芯”有“魂”。我们都知道整车操作系统是相当复杂的,对于媒体朋友和广大听众来讲,要全面深入理解可能需要并非易事,接下来有请天舒上台,介绍一下智能系统最新的进展,谢谢大家!

(初晓整理自 NIO IN 2024

总共0条评论

轨  迹 

上海恩翌信息科技有限公司

+  关注  已关注

NE时代是应时代而生的汽车产业服务平台,以新能源为载体,以智能化、网联化为延伸,立体构建集媒体资讯、数据研究、...

文章数

3821

官网:https://ne-time.cn/

客服:18817750862

地址:上海市普陀区光新路88号中一国际18楼1806室

NE资讯
NE资讯
NE智能车
NE数据
NE活动

快讯

欢迎关注我们!

版权所有  :上海恩翌信息科技有限公司

联  系   人 :NE时代 小恩

联系电话 :188-1775-0862

备案许可号 :沪ICP备17041240号-4