由于操作过于频繁,请点击下方按钮进行验证!

聊一聊自动驾驶芯片发展趋势

国际金属加工网 2023年05月30日

自动驾驶芯片概况

自动驾驶芯片简介:车规级芯片要求更加严苛

芯片按应用场景可分为消费芯片、工业芯片、汽车芯片和军工芯片等。汽车是芯片应用场景之一,汽车芯片需要具备车规级。车规级芯片对加工工艺要求不高,但对质量要求高。需要经过的认证过程,包括质量管理标准ISO/TS 16949、可靠性标准 AEC-Q100、功能安全标准ISO26262等。汽车内不同用途的芯片要求也不同,美国制定的汽车电子标准把其分为5级。汽车各系统对芯片要求由高到低依次是:动力安全系统 > 车身控制系统 > 行驶控制系统 > 通信系统 > 娱乐系统。

车规级芯片特殊的技术和工艺要求挡住了企业进入的脚步。车规级芯片有着比消费级芯片更高的技术门槛,需满足温度、振动、电磁干扰、长使用寿命等高要求,还要通过可靠性标准AEC-Q100、 质量管理标准ISO/TS16949、功能安全标准ISO26262 等严苛的认证流程,大部分芯片企业尚不具备转型进入能力。目前,车规级芯片在传统汽车中的成本约为 2270 元 / 车,在新能源汽车中的成本约为 4540 元 / 车。随着汽车向电动化和智 能化发展,芯片的种类、数量和价格占比将进一步提高。

自动驾驶芯片产品趋势:一体化

云和边缘计算的数据中心,以及自动驾驶等超级终端领域,都是典型的复杂计算场景,这类场景的计算平台都是典型的大算 力芯片。大芯片的发展趋势已经越来越明显的从GPU、DSA的分离趋势走向DPU、超级终端的再融合,未来会进一步融合成超 异构计算宏系统芯片。BOSCH给出了汽车电气架构演进示意图。从模块级的ECU到集中相关功能的域控制器,再到完全集中的车载计算机。每个阶段还分了两个子阶段,例如完全集中的车载计算机还包括了本地计算和云端协同两种方式。

英伟达创始人黄仁勋在2022秋季GTC大会上发布了新自动驾驶芯片——Thor。Thor的特点:一是超高AI性能,拥有770亿晶体管,而上一代的Orin是170亿晶体管。AI性能为2000 TFLOPS@FP8。如果是INT8格式,估计可以达到4000TOPS。二是支持FP8格式,英伟达、英特尔和ARM三家联合力推FP8格式标准,力图打通训练与推理之间的鸿沟。三是超高CPU性能,Thor的CPU可 能是ARM的服务器CPU架构V2或更先进的波塞冬平台。四是统一座舱、自动驾驶和自动泊车,一颗芯片包打天下。

英伟达发布的一体化自动驾驶芯片Altan&Thor的设计思路是完全的“终局思维”,相比BOSCH给出的一步步的演进还要更近一 层,跨越集中式的车载计算机和云端协同的车载计算机,直接到云端融合的车载计算机。云端融合的意思是服务可以动态的、 自适应的运行在云或端,方便云端的资源动态调节。Altan&Thor采用的是跟云端完全一致的计算架构:Grace-next CPU、 Ampere-next GPU以及Bluefield DPU,硬件上可以做到云端融合。

自动驾驶芯片架构分析

主流架构方案对比:三种主流架构

当前主流的AI芯片主要分为三类,GPU、FPGA、ASIC。GPU、FPGA均是前期较为成熟的芯片架构,属于通用型芯片。ASIC 属于为AI特定场景定制的芯片。行业内已经确认CPU不适用于AI计算,但是在AI应用领域也是必不可少。CPU遵循的是冯·诺依曼架构,其核心是存储程序/数据、串行顺序执行。因此CPU的架构中需要大量的空间去放置存储单元(Cache)和控制单元(Control),相比之下计算单元(ALU)只占据了很小的一部分,所以CPU在进行大规模并行计 算方面受到限制,相对而言更擅长于处理逻辑控制。

GPU(GraphicsProcessing Unit),即图形处理器,是一种由大量运算单元组成的大规模并行计算架构,早先由CPU中分出 来专门用于处理图像并行计算数据,专为同时处理多重并行计算任务而设计。GPU中也包含基本的计算单元、控制单元 和存储单元,但GPU的架构与CPU有很大不同,其架构图如下所示。与CPU相比,CPU芯片空间的不到20%是ALU,而GPU芯片空间的80%以上是ALU。即GPU拥有更多的ALU用于数据并行处理。

CPU 由专为顺序串行处理而优化的几个核心组成,而 GPU 则拥有一个由数以千计的更小、更高效的核心组成的大规模并 行计算架构,这些更小的核心专为同时处理多重任务而设计。CPU和GPU之所以大不相同,是由于其设计目标的不同,它们分别针对了两种不同的应用场景。CPU需要很强的通用性来 处理各种不同的数据类型,同时又要逻辑判断又会引入大量的分支跳转和中断的处理。这些都使得CPU的内部结构异常复 杂。而GPU面对的则是类型高度统一的、相互无依赖的大规模数据和不需要被打断的纯净的计算环境。
对于深度学习来说,目前硬件加速主要靠使用图形处理单元。相比传统的 CPU,GPU 的核心计算能力要多出几个数量级,也更容易进行并行计算。GPU 的众核体系结构包含几千个流处理器,可将运算并行化执行,大幅缩短模型的运算时间。随着 NVIDIA、AMD 等公司不断推进其 GPU 的大规模并行架构支持,面向通用计算的 GPU已成为加速并行应用程序的重要手段。目前 GPU 已经发展到了较为成熟的阶段。利用 GPU 来训练深度神经网络,可以充分发挥其数以千计计算核心的高效并行计算能力,在使用海量训练数据的场景下,所耗费的时间大幅缩短,占用的服务器也更少。如果针对适当的深度神经网 络进行合理优化,一块 GPU 卡可相当于数十甚至上百台 CPU服务器的计算能力,因此 GPU 已经成为业界在深度学习模型 训练方面的首选解决方案。

FPGA方案:FPGA芯片定义及结构

FPGA(Field-Programmable Gate Array),即现场可编程门阵列,它是在PAL、GAL、CPLD等可编程器件的基础上进一步发 展的产物。它是作为专用集成电路领域中的一种半定制电路而出现的,既解决了定制电路的不足,又克服了原有可编程 器件门电路数有限的缺点。FPGA芯片主要由6部分完成,分别为:可编程输入输出单元、基本可编程逻辑单元、完整的时钟管理、嵌入块式RAM、丰 富的布线资源、内嵌的底层功能单元和内嵌专用硬件模块。目前主流的FPGA仍是基于查找表技术的,已经远远超出了先 前版本的基本性能,并且整合了常用功能(如RAM、时钟管理和DSP)的硬核(ASIC型)模块。

由于FPGA需要被反复烧写,它实现组合逻辑的基本结构不可能像ASIC那样通过固定的与非门来完成,而只能采用一种易于反复配置的结构。查找表可以很好地满足这一要求,目前主流FPGA都采用了基于SRAM工艺的查找表结构,也有一些军 品和宇航级FPGA采用Flash或者熔丝与反熔丝工艺的查找表结构。通过烧写文件改变查找表内容的方法来实现对FPGA的重 复配置。查找表(Look-Up-Table)简称为LUT,LUT本质上就是一个RAM。目前FPGA中多使用4输入的LUT,所以每一个LUT可以看成 一个有4位地址线的 的RAM。当用户通过原理图或HDL语言描述了一个逻辑电路以后,PLD/FPGA开发软件会自动计算逻辑 电路的所有可能结果,并把真值表(即结果)事先写入RAM,这样,每输入一个信号进行逻辑运算就等于输入一个地址 进行查表,找出地址对应的内容,然后输出即可。

ASIC方案:ASIC定义及特点

ASIC 芯片可根据终端功能不同分为 TPU 芯片、DPU 芯片和 NPU 芯片等。其中,TPU 为张量处理器,专用于机器学习。如 Google 于 2016 年 5 月研发针对 Tensorflow 平台的可编程 AI 加速器,其内部指令集在 Tensorflow 程序变化或更新算法时 可运行。DPU 即 Data Processing Unit,可为数据中心等计算场景提供引擎。NPU 是神经网络处理器,在电路层模拟人类神 经元和突触,并用深度学习指令集直接处理大规模电子神经元和突触数据。ASIC 有全定制和半定制两种设计方式。全定制依靠巨大的人力时间成本投入以完全自主的方式完成整个集成电路的设计 流程,虽然比半定制的 ASIC 更为灵活性能更好,但它的开发效率与半定制相比甚为低下。ASIC 芯片非常适合人工智能的应用场景。例如英伟达首款专门为深度学习从零开始设计的芯片 Tesla P100 数据处理速度 是其 2014 年推出GPU 系列的 12 倍。谷歌为机器学习定制的芯片 TPU 将硬件性能提升至相当于当前芯片按摩尔定律发展 7 年后的水平。正如 CPU 改变了当年庞大的计算机一样,人工智能 ASIC 芯片也将大幅改变如今 AI 硬件设备的面貌。如大名鼎鼎的 AlphaGo 使用了约 170 个图形处理器(GPU)和 1200 个中央处理器(CPU),这些设备需要占用一个机房,还 要配备大功率的空调,以及多名专家进行系统维护。而如果全部使用专用芯片,极大可能只需要一个普通收纳盒大小的 空间,且功耗也会大幅降低。

ASIC技术路线是有限开放,芯片公司需要面向与驾驶相关的主流网络、模型、算子进行开发。在相同性能下,芯片的面 积更小、成本更低、功耗更低。ASIC技术路线未来的潜力会很大,选择ASIC路线并不意味着要对不同车型开发不同的 ASIC,或进行不同的验证。因为不同车型需要实现的功能大致相同,而且芯片面对模型和算子进行有限开放,算法快速 迭代不会影响到芯片对上层功能的支持。车厂与芯片设计公司合作,进行差异化定制,或是更好的选择。因为即使是进 行差异化的定制,芯片内部50%的部分也是通用的。芯片设计公司可以在原有版本的基础上进行差异化设计,实现部分 差异功能。

主流架构方案对比:三种主流架构

FPGA是在PAL、GAL等可编程器件的基础上进一步发展的产物。它是作为专用集成电路领域中的一种半定制电路而出现 的,既解决了定制电路的不足,又克服了原有可编程器件门电路数有限的缺点。优点:可以无限次编程,延时性比较 低,同时拥有流水线并行和数据并行、实时性最强、灵活性最高。缺点:开发难度大、只适合定点运算、价格比较昂 贵。图形处理器(GPU),又称显示核心、视觉处理器、显示芯片,是一种专门在个人电脑、工作站、游戏机和一些移动设 备(如平板、手机等)上做图像和图形相关运算工作的微处理器。优点:提供了多核并行计算的基础结构,且核心数非 常多,可以支撑大量数据的并行计算,拥有更高的浮点运算能力。缺点:管理控制能力(最弱),功耗(最高)。

ASIC,即专用集成电路,指应特定用户要求和特定电子系统的需要而设计、制造的集成电路。目前用CPLD(复杂可编程 逻辑器件)和FPGA(现场可编程逻辑阵列)来进行ASIC设计是最为流行的方式之一。优点:它作为集成电路技术与特定用 户的整机或系统技术紧密结合的产物,与通用集成电路相比具有体积更小、重量更轻、功耗更低、可靠性提高、性能提 高、保密性增强、成本降低等优点。缺点:灵活性不够,成本比FPGA贵。

唯算力论的局限:TOPS算力不完全等于实际性能

随着ADAS、自动驾驶技术的兴起,以及软件定义汽车的逐步深入,智能汽车对于计算能力和海量数据处理能力等的需求暴增,传统汽车的芯片“堆叠”方案已经无法满足自动驾驶的算力需求。芯片最终是为车企的车载计算平台服务的,在 “软件定义汽车”的情况下,解决智能驾驶系统计算平台的支撑问题,无法只通过芯片算力堆叠来实现。

芯片是软件的舞台,衡量芯片优劣的标准,要看芯片之上的软件能否最大化地发挥作用,算力和软件之间需要有效匹配。两款相同算力的芯片比较,能让软件运行得更高效的芯片才是“好芯片”。决定算力真实值最主要因素是内存( SRAM和 DRAM)带宽,还有实际运行频率(即供电电压或温度),以及算法的batch尺寸。单颗芯片算力TOPS是关键指标,但并非唯一,自动驾驶是一个复杂系统,需要车路云边协同。所以它的较量除了芯还有 软硬协同还有平台以及工具链等等。芯片算力的无限膨胀和硬件预埋不会是未来的趋势,硬件也需要匹配实际。高算力 背后是高功耗和低利用率的问题。

自动驾驶领域99%的视觉数据在AI处理中是无用的背景。例如检测探头,变化的区域是很小一部分,但传统的视觉处理 仍然要处理99%的没有出现变化的背景区域,这不仅浪费了大量的算力,也浪费了时间。亦或者像在沙砾里有颗钻石,AI 芯片和传统相机需要识别每一颗沙粒,筛选出钻石,但人类只需要看一眼就能检测到钻石,AI芯片和传统相机耗费的时 间是人类的100倍或1000倍。除了冗余信息减少和几乎没有延迟的优点外,事件相机的优点还有由于低时延,在拍摄高速物体时,传统相机由于会有 一段曝光时间会发生模糊,而事件相机则几乎不会。此外事件相机拥有真正的高动态范围,由于事件相机的特质,在光 强较强或较弱的环境下,传统相机均会“失明”,但像素变化仍然存在,所以事件相机仍能看清眼前的东西。

自动驾驶芯片部分重点企业分析

英伟达:从游戏显卡到自动驾驶芯片

英伟达拥有极具前瞻性且清晰的战略能力。英伟达是全球最大的智能计算平台型公司,公司从早期专注PC图形计算,后来逐 步将重点扩展到AI领域,并在3D图形的持续需求与游戏市场规模扩张推动下,利用GPU架构,创建VR、HPC(高性能计算)、AI平台。

英伟达在独立显卡、GPU领域有超过70%的市场份额。除了优秀的硬件性能外,2006年英伟达开发了基于GPU的 “CUDA”开发平台,让只做3D渲染的GPU实现通用计算功能,GPU 的应用领域从游戏扩展至高性能计算、自动驾驶等多个领域。

早在2018年,英伟达就推出Xavier平台,可处理来自车辆雷达、摄像头、激光雷达和超声波系统的自主驾驶数据。Xavier SoC基于台积电12nm工艺,集成90亿颗晶体管,CPU采用NVIDIA自研8核ARM64架构,GPU采用512颗CUDA的Volta。该芯片可提供30TOPS的运算能力,功耗30W,能效比为1TOPS/W。
2019年英伟达发布面向ADAS和自动驾驶领域的SOC Orin,该芯片拥有170亿个晶体管,搭载NVDIA基于Ampere架构的GPU和Arm Hercules CPU核心。Orin SoC采用7nm工艺,内置第二代深度学习加速器DLA、第二代视觉加速器PVA、视频编解码器,算力达254TOPS,功耗45W,预计将于2022年交付,面向L2+级自动驾驶场景。

基于该芯片的DRIVE AGX Orin平台可实现最大算力2000TOPS,覆盖L2-L5级自动驾驶需求,帮助主机厂开发自适应巡航控制、自动紧急制动、变道辅助、防碰撞、车道偏离预警、交通信号灯识别等自动驾驶功能,进而实现在高速、城区、泊车、换电等场景点到点的自动驾驶。

据不完全统计,全球已有超过25家主机厂与英伟达就Orin达成合作,其中不乏蔚来、小鹏、理想、威马、上汽智己、R汽车、法拉第未来、Lucid Group、Human Horizons Vinfast、华人运通等造车新势力;比亚迪、奔驰、捷豹路虎、沃尔沃、现代、奥迪、路特斯等传统主机厂也纷纷加入;

另外,德赛西威、百度Apollo、通用Cruise、谷歌Waymo、图森未来、小马智行、亚马逊Zoox、滴滴、沃尔沃商用车、Kodiak、智加科技、Auto X、文远知行、元戎启行等自动驾驶公司也将基于Orin开发各自的ADAS方案。

英特尔Mobileye:EyeQ系列发展历程

2004年4月,EyeQ1开始生产,随后公司收获多轮融资,将商业模式转向汽车安全,陆续与大陆、意法半导体、麦格纳、电装、 德尔福等全球顶级零部件供应商签署合作协议。2007年,宝马、通用和沃尔沃成为首批配装Mobileye芯片的车企,Mobileye 产品正式商用。2008年,Mobileye对外发布EyeQ2,公司进入稳定发展期。2013年,Mobileye累计卖出产品突破100万台,随 后出货量呈现爆发式增长。2017年3月,Mobileye被芯片巨头英特尔以 153 亿美元的价格收购。

Mobileye在2022年推出了新型EyeQ Ultra,它专为自动驾驶而生。据 Mobileye称,EyeQ Ultra采用5nm工艺,将10个EyeQ5的处理 能力集成在一个封装中。但是其芯片的计算能力似乎略逊色于英伟达,EyeQ Ultra芯片具有170 TOPS,包括12个RISC内核、256 gigaflops、许多GPU和加速器内核等等,功耗不到100W,可以“处理 4 级(L4)自动驾驶的所有需求和应用”,而无需将多个 系统集成在一起的计算能力和成本,解决两个行业面临的重大挑战。EyeQ Ultra预计将在 2025 年全面投产。

特斯拉:自动驾驶芯片发展之路

Tesla经历了外购主控芯片到自研的道路。2014年-2016年,Tesla配备的是基于Mobileye EyeQ3芯片的AutoPilot HW1.0计算平 台,车上包含1个前摄像头+1个毫米波雷达+12个超声波雷达。

2016年-2019年,Tesla采用基于英伟达的DRIVE PX 2 AI计算平台 的AutoPilot HW2.0和后续的AutoPilot HW2.5,包含8个摄像头+1个毫米波雷达+12超声波雷达。

2017年开始Tesla开始启动自研主控芯片,尤其是主控芯片中的神经网络算法和AI处理单元全部自己完成。

2019年4月, AutoPilot HW3.0平台搭载了Tesla FSD自研版本的主控芯片,这款自动驾驶主控芯片拥有高达60亿的晶体管,每秒可完成144万 亿次的计算,能同时处理每秒2300帧的图像。

2023年2月,特斯拉Autopilot HW4.0曝光。HW4.0是将自动驾驶(FSD)电脑和车机娱乐电脑整合为一块主板,车机娱乐电脑的硬件依旧采用AMD芯片、256G固态硬盘、16G内存,而自动驾驶FSD芯片的CPU内核从12个增加至20个,总算力有望从144Tops提升至300-500Tops。在传感器的搭载方面,(1)HW4.0将拥有12个摄像头接口,并支持2896x1876的分辨率以及540万像素;(2)HW4.0新增毫米波雷达接口、以及雷达加热器接口以防止冰雪天气中对雷达信号的影响。据此前流出的内部文件,特斯拉或将采用Arbe公司研发的“Phoenix”4D毫米波雷达。HW4.0即将量产上车。

德州仪器:Jacinto 7 让智能汽车更安全

德州仪器(TI)于1930年成立,最早的设备是石油勘探设备,1958年德州仪器的员工Jack Kilby发明了半导体,从此其实开启了整个半导体行业的元年。2022年,TI整体营收达到200亿美金,整个产品体系拥有8万多种产品,4.5万个专利,模拟产品营收达到153亿美金,占到整体营收的75%以上,数字产品的营收超过30多亿。

TI 推出的Jacinto 7处理器平台,是基于TI数十年的汽车系统和功能安全知识,具有强化的深度学习功能和先进的网络处理,以解决高级驾驶辅助系统(ADAS)和汽车网关应用中的设计挑战。该平台系列中推出的两款汽车级芯片,即应用于ADAS的TDA4VM处理器,以及应用于网关系统的DRA829V处理器,包含用于加速数据密集型任务的专用加速器,如计算机视觉和深度学习。此外,TDA4VM和DRA829V处理器还包含支持功能安全的微控制器(MCU),使得汽车厂商(OEM)和一级供应商能够用单芯片同时支持ASIL-D高安全要求的任务和功能。这两款芯片共享一套软件平台,使得开发人员能够在多个车辆域的应用中重用大量软件投资,从而减轻了系统的复杂度和开发成本。

TDA4VM处理器集成双核64 位 Arm Cortex-A72 微处理器子系统,性能高达 2.0GHz、22K DMIPS,具有强大的片上数据分析的能力,并与视觉预处理加速器相结合,从而使得系统性能更高效。汽车电子工程师可用来开发前置摄像头应用,使用高分辨率的800万像素摄像头,帮助车辆看得更远并且可以加入更多驾驶辅助增强功能。此外,TDA4VM处理器能够同时操作4到6个300万像素的摄像头,同时还可以将雷达、激光雷达和超声波等其他多种感知处理融合在一个芯片上。这种多级处理能力使得TDA4VM能够胜任ADAS的中心化处理单元,进而实现自动泊车应用中的关键功能(如环绕视图和图像渲染显示),同时增强车辆感知能力,实现360度的识别感知。

TDA4VM处理器适合以下应用:高级环视和泊车辅助系统;自主传感器融合/感知系统,包括摄像头、雷达和激光雷达传感器;单传感器和多传感器前置摄像头系统;下一代电子后视镜系统。

目前,基于双 TDA4VM 行泊一体方案已经量产。同时,伴随着算法软件成熟度的提高、更高性能芯片的出现,以及系统成本优势,使得单芯片 TDA4 行泊一体化的方案成为行泊一体化方案的理想选择。从当前的形态来看, 有两种方式实现:一种是,基于单 TDA4VM 或 TDA4VM Eco 实现 AI 算力 <=8TOPS 的单 TDA4 行泊一体化解决方案,这种方案使用分时复用的方式实现行泊一体化解决方案,传感器系统可配置为 5V5R 或 6V5R;另外一种是,基于单 TDA4VH 或 TDA4VM Plus 实现 AI 算力 24~32TOPS 的单 TDA4 行泊一体化解决方案,算力更强,可接入更多的摄像头。

CAN/LIN等低速接口在传统汽车领域被延用20年,但应用于今天的智能汽车中对整车电控单元升级相当的不便,现在的汽车过渡到了分域结构,比如有ADAS域、Infotainment域和动力域等等。分域结构中,域与域需要非常高速的连接总线,总而言之,DRA829V系列就是用于解决这个问题的。

DRA829V集成了片上PCie交换机的处理器,在整个汽车系统中实现更快的高性能计算网关处理和通信,将关键任务和通用处理部分隔离,集成8端口Gbit/TSN 以太网交换机,以实现汽车系统的更快速通信。

相比传统架构,DRA8X SoC将PCIe交换机、以太网交换机、信息安全模块(eHSM)、MCU通通集成于一体,该芯片最核心的优势便是高性能处理,同时具有更低功耗。

TI拥有超过7000多种车规级产品,新产品推进的速度还在不断加强,预计每一年有数百种新款的产品推出来。

瑞萨电子

瑞萨电子(Renesas)开发出了作为自动驾驶及高级驾驶辅助系统“大脑”的车载半导体。其开发的“R-Car V3U”是被称为“SoC”的半导体,在1块芯片中集成了判断周围状况、针对下一步操作发出指令的功能。可以单芯片同时处理摄影机与光达等传感器资料,同时以AI进行自动驾驶控制与学习,同时达到汽车安全标准ISO 26262最高的ASIL D要求,确保系统简单安全。最近已开始面向整车厂商及大型部件厂商供应样品,计划2023年4-6月开始量产。

根据瑞萨公布资料,R-Car V3U最大运算速度达9.6万DMIPS,卷积神经网络(CNN)计算达60TOPS,足供自动驾驶应用,而且与同属R-Car第三世代的R-Car V3M/H等既有影像专用芯片的软件引擎共通,让软件开发厂容易直接转换既有程序,可以在短时间内将现有多芯片系统移植到R-Car V3U的单芯片系统上。

高通

高通早在2017年就披露研发自动驾驶芯片的计划,2020年初发布全新自动驾驶平台SnapdragonRide,该平台包含多个SOC、深度学习加速器和自动驾驶软件Stack,能够支持高级驾驶辅助系统ADAS功能。预计搭载Snapdragon Ride的汽车将于2023年投入生产。
去年1月,高通宣布扩展了SnapdragonRide平台组合,使其可支持多层级的ADAS/AD自动驾驶辅助功能,包括从安装于汽车风挡的NCAPADAS解决方案(L1级),到支持有条件自动驾驶的主动安全(L2/L3级别),再到全自动驾驶系统(L4级)。

SnapdragonRide平台基于5nm制程工艺,可提供不同等级的算力,包括以小于5W功耗为ADAS摄像头提供10TOPS的算力,以及为L4级自动驾驶解决方案提供超过700TOPS的算力。

2022年4月,高通还完成收购维宁尔,补齐了高通在自动驾驶领域的软件算法能力。维宁尔的核心竞争优势在于雷达、感知系统、自动驾驶系统算法、功能安全/预期功能安全等方向。此次收购完成后,高通将直接把Arriver的计算机视觉(Computer Vision)、驾驶政策(Drive Policy)和驾驶辅助(Driver Assistance)业务纳入其领先的 Snapdragon Ride 高级驾驶辅助系统解决方案,使公司从一个芯片提供者升级成为高级驾驶辅助/自动驾驶平台的提供者,也使公司具备了提供完整的自动驾驶解决方案的能力。

赛灵思

赛灵思(Xilinx)作为目前全球最大的可编程芯片FPGA生产厂商,早在2018年就看到了行业对自适应计算的需求,从而推出了ACAP自适应计算加速平台。

该平台被称为赛灵思自1984年发明FPGA之后又一颠覆性创新,可以更加灵活地根据不同工作负载和应用需求进行自适应加速,进而进一步提升了赛灵思在加速器市场的穿透力。

具体来看,ACAP 是一个完全支持软件编程的异构处理器计算平台,结合了分布式存储器与硬件可编程的 DSP 模块、一个多核 SoC、一个或多个软件可编程且同时又具备硬件自适应性的计算引擎,具备并行处理、高吞吐量、低时延等重要优势。

据赛灵思介绍,截止目前,赛灵思在汽车电子领域的累计出货量已经达到2.05亿片,而在ADAS领域的出货量也已经达到8000万片。仅去年一年,赛灵思在汽车行业的出货量就接近2000万片器件。

赛灵思认为,在自动驾驶感知及最后决策过程中,中央计算非常重要,但它不是全部。未来不可能把所有的数据融合之后就送到中央计算单元,这样会导致中央计算单元的计算量太大,从而产生时延、功耗等问题。

因此,未来智能网联汽车各个域的数据一定是先融合,再进行分布式的边缘计算,最终才输送到中央计算单元。赛灵思从数据接入、汇总、分发、预处理的数据层会先做一层过滤,以帮助中央计算提取有效数据,最后再去运算。

此外, 车用传感器越来越多,传感器之间以及传感器和计算平台之间通过以太网互联的时候, 安全网关的重要性也更加凸显。赛灵思的安全网关符合硬件安全模块HSM对于加密的要求,并且具备独特的信息安全管理模块CSU,能够对网络工具提供有效的保护。

安霸:牵手三星打造自动驾驶芯片

今年2月,三星半导体表示将与美国芯片设计公司安霸半导体将展开合作,基于5nm制程工艺打造用于自动驾驶的芯片。据官方称,CV3-AD685的性能较前代产品提升近20倍。

安霸半导体是一家专注人工智能视觉的芯片设计公司,布局与人工智能机器人、智慧出行以及无人机领域。早些时候,安霸半导体发布了旗下最新款旗舰级视觉芯片——CV5,通过对摄像头操作和AI视觉处理任务的特殊处理,满足各种传感器的视频流需求。当然,CV5还破天荒地加入了4K、8K60fps的数据流支持,可以提供更加高清的图像捕捉,为系统反馈精确的信号。

目前,安霸半导体的产品,CV1、CV2已经广泛应用于一线车企中,例如一汽红旗、大众等部分车型,都选择了基于CV1的L2 级ADAS解决方案。除了自动驾驶之外,安霸半导体还提供智能座舱感知、电子后视镜、辅助泊车等功能的应对方案。当然,同为人工智能视觉方案起家的豪威,近几年的发展速度也相当快,尤其是在摄像头和传感器部分,豪威似乎更具优势。

恩智浦:针对自动驾驶推出汽车雷达单芯片系列

年初,恩智浦宣布率先推出全新28nm RFCMOS雷达单芯片系列,适用于新一代ADAS和自动驾驶系统。新推出的SAF85xx单芯片系列集成了恩智浦的高性能雷达感测功能和处理技术,可为一级供应商和OEM提供更高的灵活性,支持短距、中距和长距雷达应用,满足更多更具挑战性的NCAP安全性要求。

恩智浦拥有技术领先优势已超过15年,单芯片雷达系列的推出进一步丰富了其先进雷达产品组合,进一步为驾驶员提供安全的环境,减少事故发生。专注于前沿雷达技术的DENSO Corporation是恩智浦的主要客户,也选择使用这些创新技术。

恩智浦的全新汽车雷达SoC系列包含高性能雷达收发器,并集成基于恩智浦S32R雷达计算平台构建的多核雷达处理器。与恩智浦的前一代产品相比,SAF85xx的RF性能翻倍,信号处理速度提高40%。该单芯片系列可为角雷达和前向雷达提供4D传感功能,适用于众多安全关键型ADAS应用,如自动紧急制动、自适应巡航控制、盲点监测、横向交通警告和自动泊车。得益于新系列提供的更高灵活性,OEM可满足不断扩展的NCAP安全要求和雷达传感器数量激增需求,一些分析师预计未来每辆汽车将至少安装五个雷达传感器。

地平线:车规级芯片发展历程

自2015年创立以来,地平线仅用了5年的时间即实现了车规AI芯片的量产落地,开启国产车规级AI芯片的前装量产元年。与此 相比,Mobileye的车规芯片从研发到正式商用历时8年;作为全球通用AI芯片龙头的英伟达,在CUDA发布后9年才将K1芯片应 用于奥迪A8的车用系统。地平线首款芯片征程1发布于2017年12月;征程2发布于2019年8月,可提供超过4TOPS的等效算力;征程3算力为5TOPS,发布 于2020年9月;征程5发布于2021年7月,算力128TOPS。地平线的第三代车规级产品征程5兼具大算力和高性能,支持16路摄 像头感知计算,能够支持自动驾驶所需要的多传感器融合、预测和规划控制等需求。

征程5是地平线第三代车规级产品,也是国内首颗遵循 ISO 26262功能安全认证流程开发,并通过ASIL-B认证的车载智能芯片;基于最新的地平线BPU®贝叶斯架构设计,可提供高达128TOPS算力。2022年4月21日,比亚迪与地平线正式宣布达成定点合作,比亚迪将在其部分车型上搭载地平线高性能、大算力自动驾驶芯片 征程5,打造更具竞争力的行泊一体方案,实现高等级自动驾驶功能。按照计划,搭载地平线征程5的比亚迪车型最早将于 2023年中上市。2022年9月30日,理想L8搭载征程5全球首发上市。从研发到正式量产上车,征程5芯片仅用了近三年的时间, 同样刷新了高性能智能驾驶芯片的应用效率。除了比亚迪、理想L8之外,征程5也已获得上汽集团、一汽红旗、自游家汽车等 多家车企的量产定点合作,更多合作车型将陆续量产发布。

华为:MDC智能驾驶计算平台

宣称不造车的华为通过自研 AI 芯片和计算平台,推动汽车终端智能化。2018 年 10 月,华为发布 AI 芯片昇腾 310 和昇腾 910 以及能够支持 L4 级别自动驾驶能力的计算平台——MDC600,该平台基于 8 颗昇腾AI芯片,将集成在汽车上。而吉利通过战略投资和合资两条途径来布局,将芯擎独立的公司推动自主研发大的SOC芯片(座舱和后续的智能驾驶),以实现吉利对大算力芯片核心技术的自主掌控,但截至目前尚未量产。

华为MDC 所采用的Ascend系列芯片,主要有Ascend310和升级版Ascend910两款芯片。Ascend包括训练和推理芯片,用于训练的Ascend910,半精度(FP16)算力达256TFLOPS,是业界的2倍。用于推理的 Ascend310,整型(INT8)算力16TOPS,功耗仅8W。作为一款 AI 芯片,Ascend310的一大亮点就是采用了达芬奇架构(Da Vinci)。达芬奇架构采用 3D Cube ,针对矩阵运算做加 速,大幅提升单位功耗下的 AI 算力,每个 AI Core 可以在一个时钟周期内实现 4096 个 MAC 操作,相比传统的 CPU 和 GPU 可 实现数量级的提升。

凌芯01:中国首款车规级智能驾驶芯片

2020年,零跑汽车发布中国首款车规级智能驾驶芯片-凌芯01,目前已装车超过8万辆。

凌芯01由零跑汽车携手世界安防巨头大华股份耗时3年联合开发,单颗芯片算力4.2T,处理性能超过Mobileye Q4芯片(算力2.5T),与采用16nm制程工艺的地平线征程3芯片性能相当。凌芯01具备完全自主知识产权,不同于如今大量的芯片用的处理器都是国外的ARM,而凌芯01是由零跑提主体需求、主体架构,再由芯昇整体设计。采用平头哥的CPU,AI处理器与核心零部件具有完全自主知识产权。

此外,凌芯01整体开放性则更强,既能支撑通用运算,又有特定的AI运算逻辑,具有能耗比更低、安全可靠性更高的优势。一枚凌芯01芯片的信号处理能力和高算力,即可实现360°全景环视、自动泊车、ADAS域控制等功能。目前零跑C01、C11系列搭载2颗凌芯01,已量产在八万多辆车上,满足L2级智能驾驶,更可实现未来智能驾驶进阶的迭代升级。

黑芝麻智能
黑芝麻系列芯片产品包括华山一号A500、华山二号A1000、A1000L、A1000Pro、A2000。2019年8月,黑芝麻智能发布了华山 一号自动驾驶芯片A500,算力5-10TOPS;2020年6月,黑芝麻智能发布华山二号A1000,算力在40-70TOPS,低配版A1000L在 16TOPS,高配版A1000Pro则在2021年4月发布,算力达到196TOPS。华山二号A2000是国内首个250T大算力芯片:顶尖7纳米工 艺、国产自主知识产权核心IP、满足ASIL B级别的安全认证标准。

黑芝麻华山二号 A1000 系列芯片已完成所有车规级认证,已经与上汽通用五菱、江淮等内的多家车企达成量产合作。在黑芝麻最强芯片华山二号 A1000 Pro 中,搭载了黑芝麻自研的图像处理器和神经网络加速器。其中,神经网络加速器能够让 A1000 Pro 芯片的 INT8 算力达到 106TOPS,INT4 算力达到 196TOPS。

2023年5月,黑芝麻智能宣布获得一汽红旗下一代FEEA3.0电子架构平台项目量产智驾芯片定点。基于黑芝麻智能华山二号A1000L系列芯片,一汽红旗将打造非分时复用的高性价比行泊一体自动驾驶域控平台。未来,该平台或将应用于一汽红旗80%左右车型。

芯驰科技

从2019年到2020年,芯驰科技先后发布了V9L/F和V9T自动驾驶芯片,分别可支持ADAS(高级驾驶辅助系统)以及域控制器。面向集成度更高的汽车电子电气架构,未来两年芯驰科技还将陆续推出能够满足更高级别自动驾驶的高算力芯片。

2022年,芯驰科技计划发布算力在10-200T之间的自动驾驶芯片——V9P/U,该产品拥有更高算力集成,可支持L3级别的自动驾驶。

在今年上海车展期间,芯驰科技发布了第二代中央计算架构SCCA2.0,并采用可视化的透明汽车模型,向业界展示了SCCA2.0中央计算架构的6个核心单元在车内的部署,并且还同时展出了这些核心单元基于芯驰处理器和MCU的实现方案。

高性能中央计算单元:采用高性能X9、V9处理器作为开放式计算核心,并集成G9和E3用于高可靠运算,CPU总算力达到300KDMIPS;

高可靠智能车控单元:采用G9处理器和E3 MCU构成的高性能智能车控单元(Vehicle HPC)作为底盘域+动力域的集成控制器,实现底盘和动力的融合和智能操控;

4个区域控制器:以高性能高可靠的E3多核MCU为核心,实现在车内四个物理区域内的数据交互和各项控制功能;

6个核心单元之间采用10G/1Gbps高性能车载以太网实现互联,并采用冗余架构,既确保了低延迟高流量的数据交换,又能确保安全性。

目前,芯驰是国内首个完成“四证合一”的企业,已经完成了ISO26262 ASIL D最高功能安全等级流程认证、 AEC-Q100可靠性认证、ISO26262功能安全产品认证以及国密认证。

芯擎科技

芯擎科技研发的首款7nm智能座舱芯片“龍鷹一号”,已于2021年6月流片成功,对标高通8155芯片。

今年三月底,芯擎科技正式宣布其“龍鷹一号”的量产和供货,据称这是国内首颗自主知识产权的7纳米车规级座舱芯片,填补了国内7纳米车规级座舱芯片的空白。

官方资料显示,“龍鷹一号”采用行业领先的多核异构架构设计。高性能算力集群,拥有8核CPU、14核GPU,以及8 TOPS AI算力的独立NPU。其强大的音视频处理能力最多可支持7屏高清画面输出和12路视频信号接入,并在行业内率先配备了双HiFi 5 DSP处理器。

此次“龍鷹一号”芯片还搭配了眼球追踪功能这一“黑科技”,AR-HUD可根据驾驶员眼球高度,实时调整最佳视角,更有利于驾驶过程中的视线聚焦。

寒武纪

寒武纪于2021年成立寒武纪行歌,致力于成为安全可靠的智能车载芯片引领者,用AI芯片支撑自动驾驶更快升级。作为寒武纪设立的控股子公司,寒武纪行歌专注于智能驾驶芯片的研发和产品化工作,核心研发团队来自行业领先的芯片公司和领先的科研机构,并进行了独立融资,引入了蔚来、上汽及宁德时代旗下基金等战略投资人。

据寒武纪表示,公司的第五代智能处理器微架构、第五代智能处理器指令集均在研发中。新一代智能处理器微架构的升级除了在编程灵活性、性能、功耗、面积等方面能够大幅提升产品竞争力之外,还针对新兴的智能算法重点应用领域,比如广告推荐系统、新兴自然语言处理算法等进行了重点优化,能够大幅提升产品在相关领域性能的竞争力。

智能驾驶是一个复杂的系统性任务,除了车载智能芯片外,还需要在云端处理复杂的训练及推理任务,也需要边缘端智能芯片在路侧实时处理车路协同相关任务,在统一的基础软件协同下,能够实现更高的效率。公司是行业内少数能为智能驾驶场景提供“云边端车”系列产品的企业之一,有望在智能驾驶领域实现规模应用。

目前,行歌科技根据汽车市场对人工智能算力的差异化需求,规划了不同档位的车载智能芯片产品。规划中面向高阶智能驾驶的车载智能芯片将采用寒武纪在研的第五代智能处理器架构和指令集,支持寒武纪统一的基础系统软件平台。鉴于汽车行业更注重功能性、安全性等特点,设计符合车规级要求的芯片还需要一定的研发周期,各项研发和产品化工作均在有序稳步推进中。

资料显示,寒武纪已推出的产品体系覆盖了云端、边缘端的智能芯片及其加速卡、训练整机、处理器IP及软件,可满足云、边、端不同规模的人工智能计算需求。公司的智能芯片和处理器产品可高效支持计算机视觉、语音处理(语音识别与合成)、自然语言处理以及搜索推荐系统等多样化的人工智能任务,高效支持计算机视觉、智能语音和自然语言处理等技术相互协作融合的多模态人工智能任务,可辐射智慧互联网、智能制造、智能教育、智慧金融、智能家居、智慧医疗等“智能+”产业。

思元370是寒武纪首款采用Chiplet(芯粒)技术的云端智能芯片。在一颗芯片中封装2颗人工智能计算芯粒(MLU-Die),每一个MLU-Die具备独立的人工智能计算单元、内存、IO以及MLU-Fabric控制和接口,通过MLU-Fabric保证两个MLU-Die间的通讯。

思元370通过不同MLU-Die组合出了三款不同规格、符合不同场景需求的加速卡产品MLU370-S4、MLU370-X4、MLU370-X8,在同样的研发费用之下,满足了更多市场需求。MLU370-S4体积小巧、能效出色,可在服务器中实现高密度部署,适合于对计算密度要求较高的数据中心场景。MLU370-X4主要面向互联网行业等推理任务或训推一体场景,适合于对单卡算力需求较高的应用场景。MLU370-X8搭载双芯片四芯粒思元370,集成寒武纪MLU-Link多芯互联技术,主要面向对算力和带宽要求较高的训练任务,在业界应用广泛的YOLOv3、Transformer等训练任务中,8卡计算系统的并行性能平均达到350WRTXGPU的155%。

需指出的是,MLU370-X8加速卡在发布后,凭借其优异的产品竞争力,与部分头部互联网客户的部分场景实现了深度合作,公司云端产品在阿里云等互联网公司形成一定收入规模。此外,部分客户已经完成产品导入,正在进行商务接洽。在金融领域,公司与头部银行和知名企业深度交流OCR等相关业务及产品应用,同时就新的业务场景(如自然语言处理等)进行了深度技术交流,部分企业正在进行业务试行。在服务器厂商方面,公司的产品也得到了头部服务器厂商的认可。

星宸科技

星宸科技是由联发科控股的子公司,联发科通过SigmaStar Technology Inc.持有星宸科技81.05%的股份。星宸科技拥有芯片设计、算法、全球营销、供应链等核心团队,在ISP、音视频编解码、模拟电路设计、SoC系统设计以及自研IP方面有优势。

团队专注于安防、智能辅助驾驶、物联网和智能家庭等领域芯片研发,产品覆盖IP Cam、USB Cam 、Car Cam、NVR、DVR、运动相机、智能家居和智能显示等。

星宸科技推出的高整合度,多功能一体化智能AI芯片SSD268G,丰富的接口和内置Ip可以满足各种不同的应用场景和产品形态,该芯片具备多摄像头输入、4K@30fps、双屏异显带HDMI输出、CORTEX-A53双核、IPU AI 大算力、多路解码等特点。臻彩图像处理引擎(包括3A、3DNR、色彩真实还原、星光夜视、HDR、细节增强、Sensor坏点补偿等)、低延迟影音处理技术,多路编码及动态编码、镜头畸变矫正技术、多Sensor接入和高能耗比IPU,广泛应用于直播像机、视频会议、工业相机、新零售等新兴领域,是一颗真正满足多模态产品形态的芯片。

(网络内容综合)

声明:本网站所收集的部分公开资料来源于互联网,转载的目的在于传递更多信息及用于网络分享,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。本站部分作品是由网友自主投稿和发布、编辑整理上传,对此类作品本站仅提供交流平台,不为其版权负责。如果您发现网站上所用视频、图片、文字如涉及作品版权问题,请第一时间告知,我们将根据您提供的证明材料确认版权并按国家标准支付稿酬或立即删除内容,以保证您的权益!联系电话:010-58612588 或 Email:editor@mmsonline.com.cn。

网友评论 匿名:

分享到