金年会围绕金年会官网不断创新,回应用户的真实需求。
在过去几年,智能化驾驶领域的竞争焦点经历了显著的转变。
起初,竞争集中在硬件层面,例如是否搭载激光雷达、配备多少个摄像头以及算力需要达到多少 TOPS。随后,随着大模型时代的到来,竞争转向了端到端、VLA(视觉-语言-行为)以及 World Model(世界模型)等技术路径。
如今,越来越多的企业意识到,仅仅拥有更大的模型已不足以形成代际优势,真正决定技术上限的是模型、数据、算力和芯片之间能否构建一个持续优化的闭环。
这正是许多汽车制造商选择自主研发的原因。
特斯拉几乎涵盖了从数据采集、训练基础设施、FSD模型到Dojo超级计算机和自研芯片的全链条。在中国,包括小鹏、蔚来和理想在内的车企,也在不断向更底层技术延伸。
在其今年推出的 L8 和 L9 车型上,理想汽车已采用了自研的马赫 M100 芯片。这款采用数据流架构的芯片被理想视为人工智能领域的重要技术方向。同时,理想也在马赫 M100 芯片上运行了其自研的马赫 VLA 模型。
然而,对于整个行业而言,更值得关注的问题并非“是否进行自研”,而是这些投入能够实际解决哪些技术难题。
带着这个疑问,我们与理想汽车自动驾驶负责人詹锟以及芯片负责人谢炎进行了深入交流。他们分享了理想对下一代自动驾驶技术路线的判断,并阐述了自研芯片、数据体系以及人工智能基础设施背后的设计理念。以下为经过编辑的部分访谈内容:
问:为了在第四季度达到特斯拉FSD V14的性能水平,理想汽车还需要在哪些方面努力?
詹锟: 我认为要追赶FSD,需要从两个层面来看。
首先是基础体验,具体体现在安全感、效率和舒适度是否能达到FSD的同等水平。FSD在安全感、效率和舒适度方面表现出色,这是其核心竞争力。即使不处理极端复杂的路况,也能在这些基础体验上达到同等水准。
其次是高级能力,这方面追赶的难度也很大。例如,特斯拉能够识别并礼让特殊车辆,能在极窄的通行环境中实现精准感知,以及能够识别交警指挥,这些能力都非常强大。
在高级能力方面,存在架构升级的机会。为什么其他公司没有而特斯拉拥有这些能力?这可能与过去的范式限制有关,也可能源于架构或数据方面的原因。我们在这些方面进行了大量的探索。
问:我理解马赫VLA是一套技术体系,而非单一模型。例如,Mind-Edge是服务于智能座舱的端侧模型。那么,目前的智能驾驶模型是否还包含“L”(Language语言)的部分?
詹锟: 当前自动驾驶架构的一个普遍趋势是将VLA(视觉-语言-行为模型)与World Model(世界模型)相结合。
从长远来看,所有技术路线都会朝着这个方向发展。无论是VLA还是World Model,其内部的Prompt(提示)都需要用到语言。因此,语言部分是必然存在的,关键在于如何运用它。
对于机器智能而言,我认为基于视觉(Vision Based)的理解方式更为合理,它能更好地理解空间、感知三维环境并服务于环境交互。语言同样具有价值,在理解环境、交通规则、接受指令以及进行复杂决策时都至关重要。
从长远来看,基于视觉和语言的原生基础模型,可能是未来的发展趋势。
谢炎: 如果要实现L3、L4级别的自动驾驶,并解决更泛化的问题,模型需要具备类似人类的思考能力。届时,语言的重要性将日益凸显,这也是未来需要巨大算力的原因之一。
如果模型仅具备视觉和动作(Vision and Action)能力,即使拥有海量数据,在遇到分布之外的场景时也会束手无策。就像动物即使学会了所有常见情况,面对从未见过的情形也可能不知所措,无法做出正确的选择。
我们认为,随着向L3、L4级别的迈进,需要解决的问题越来越接近90%、95%、98%之后的部分——那些前所未见的场景,需要模型具备像人类一样的思考能力。而获得类似人类的推理和思考能力,其来源正是语言模型。例如,理解交警的手势,判断其意图是让你通行还是停止,这并非仅靠收集或生成数据就能解决的问题。
问:随着理想汽车车队规模的增长,从公司内部来看,数据的边际效应是否出现了衰减?你们是如何定义有价值的数据的?
詹锟: 首先,数据的数量需要足够庞大,其核心目的是收集更多的Corner Case(长尾场景)。当前,许多方法可以在车端实现有效的Neural Trigger(神经网络触发器),以判断场景的难易程度,并将关键数据回传。这也是特斯拉在数据方面表现强大的原因之一。
其次,数据的质量至关重要,主要体现在行为质量上。目前,行业逐渐趋向于端到端的范式,无论是VLA(视觉-语言-行为模型)、World Model(世界模型)还是Vision-Action(视觉-动作模型),其核心在于准确理解Action(行为)。因此,行为的质量,包括其清晰度和一致性,变得尤为重要。
至于数据规模扩大后边际效应是否衰减,首先,只要模型能力不断提升,并且我们追求满分的目标,数据带来的收益增长必然遵循“对数曲线”,呈现逐渐放缓的趋势,而非线性增长,这是所有AI公司都会遇到的情况。虽然后期数据收敛的速度确实会变慢,但我们希望通过规模化来加速这一过程。
问:马赫M100能够运行在不同的AI场景下。展望五年或更远的未来,理想汽车车内的算力中心是否有可能全部采用自研的马赫芯片?
谢炎: 业内存在“舱驾一体”的说法,但我们认为,舱驾一体的核心在于AI算力部分,其他部分是否一体化并非关键。因为座舱系统和AI智能驾驶系统可以完全独立,但AI算力可以集中处理,从而大大提高效率。
我们规划的最终形态是,车内拥有一个统一的AI计算中心,所有AI任务都在该中心进行计算。这类似于在笔记本电脑上运行OpenClaw,AI计算并非在笔记本本地完成,而是通过Token Provider Server(Token供应服务器)实现,车内也将采用类似机制,设立一个Token Server(Token服务器)。
该Token Server的优势在于:第一,效率极高。第二,能够实现不同任务之间的隔离,互不干扰。例如,智能驾驶任务的确定性——无论是内存还是带宽,都能保证不被其他任务影响,这是软硬件协同设计才能实现的结果。
问:是否因为M100采用数据流架构的AI推理芯片,其对带宽的需求低于其他厂商的自动驾驶芯片,而对片上存储的需求更高?
谢炎: 我们对带宽的要求确实会相对较低,但这并非直接导致SRAM容量(非显存)设计的原因。当前HBM(高带宽内存)技术非常热门,很多人认为带宽越高越好。但计算、带宽、SRAM等都需要晶体管来实现,最终的设计是基于成本、综合性能等多方面因素考量后的选择。
仅仅依靠一两个指标来简单对比不同架构的设计,既不合理也不专业。这就好比拳击比赛,身高和体重都有各自的优势,但胜负并非由单一指标决定,最终比拼的是这项运动的综合表现。
问:为何当前的大算力芯片方案,如英伟达、小鹏以及理想自研的芯片,都没有实现芯片级的舱驾融合,而高通却在低算力芯片上进行了此类尝试?
谢炎: 本质上,座舱和驾驶是两个独立的系统。特别是对于向L3、L4级别发展的高端智能驾驶,需要一个更高确定性的系统,其内存和计算资源都应该是专属的,此时融合的意义就大大降低了。因为资源无法实现实时切换,实时切换会降低系统的确定性。如果系统朝着越来越独占的方向发展,融合的价值就会减小——即使将两个芯片集成在一起,资源仍然是分开的,并不能带来成本的降低,甚至可能影响效率。
目前市面上的舱驾融合系统,其功能仍然是分开的。它们无法实现“一会儿处理座舱任务,一会儿处理驾驶任务”的动态切换。在这种情况下,将两个芯片集成到一块,晶体管数量可能不变,仅仅节省了封装成本。对于中低端芯片而言,这部分成本节约是存在的,但幅度有限。
我的观点是,随着智能驾驶的不断高端化,舱驾融合的意义可能并不大。如果能将这些芯片更紧密地集成在同一块电路板上,实现小型化集成方案,这是可行的,不一定非要集成到一块芯片上,也可以是多块芯片协同工作。
问:自研芯片需要哪些条件,例如销量、营收和研发投入?鉴于当前自动驾驶迭代速度很快,芯片要持续迭代需要具备哪些条件?
谢炎: 芯片的初期投入确实不菲,可能每年需要数亿元人民币。
首先,需要达到一定的营收规模。对于车企而言,年营收规模超过1000亿元,研发投入至少占10%,即每年拥有数十亿至上百亿元的研发资金,才能支撑芯片的持续研发投入。其次,自研芯片所解决的问题,必须能够显著提升产品的核心竞争力。
许多人认为芯片需要巨大的出货量才能摊薄成本。实际上,芯片的成本与其面积密切相关。一辆车上的智能驾驶芯片,例如理想L7/L8/L9的智驾系统使用了两颗马赫M100,总面积约为800平方毫米。而一款高端手机芯片的面积大约为100平方毫米,因此一辆车的智驾芯片面积相当于8部高端手机。
如此计算,生产几十万辆车所需的晶圆面积非常可观,足以有效摊薄芯片的单位成本。因此,不能仅凭芯片数量来衡量成本。
问:动态数据流编译器究竟难在哪里?花费了多长时间才得以攻克?
谢炎: 在芯片流片之前,甚至在设计阶段,我们就已经开始了编译器工作。在芯片流片之前,我们已经成功运行了许多模型。
数据流架构是一种全新的设计思路,它需要解决的问题类似于超级计算机或大规模计算机集群所面临的挑战——当规模扩展到数十万台计算机、上百万个核心时,它们之间的通信与协作,无法依靠一个中央管理员来统一调度。传统的冯·诺依曼架构调度方式在这种规模下已不可行,这涉及到超大规模并行调度的复杂问题。
围绕金年会登录入口,金年会持续打磨更优质的服务。
想了解更多以客户为中心,提供定制化服务相关内容,尽在金年会。
金年会深耕精湛的工艺,卓越的品质领域,用心服务每一位用户。
金年会围绕金年会官网不断创新,回应用户的真实需求。
精选金年会APP内容,金年会与你一同发现更多精彩。