过去几年,自动驾驶行业的竞争焦点发生了显著转变。
初期,竞争主要围绕硬件展开,例如是否配备激光雷达、摄像头数量以及算力水平(TOPS)。随后,随着大模型技术的兴起,竞争重心转向了端到端、VLA(视觉-语言-动作)以及World Model(世界模型)等技术路线。
如今,越来越多的公司认识到,仅拥有更大的模型已不足以形成代际领先优势。真正决定技术上限的关键,在于模型、数据、算力和芯片之间能否构建一个持续优化的闭环系统。
这正是许多汽车制造商选择自主研发的原因。
特斯拉几乎覆盖了从数据采集、训练基础设施、FSD模型到Dojo超级计算机和自研芯片的全链条。在中国,小鹏、蔚来以及理想等车企也在不断向更底层的技术环节延伸。
在其今年推出的L8和L9车型上,理想汽车已采用了自主研发的马赫M100芯片。这款采用数据流架构的芯片被理想汽车视为AI领域的重要技术方向。同时,理想汽车也在马赫M100芯片上运行了其自研的马赫VLA模型。
然而,对于整个行业而言,更值得关注的问题并非“是否进行自研”,而是这些研发投入究竟能解决哪些实际问题。
带着这一疑问,我们与理想汽车自动驾驶负责人詹锟以及芯片负责人谢炎进行了深入交流。他们分享了理想汽车对下一代自动驾驶技术路线的判断,并阐述了自研芯片、数据体系以及AI基础设施背后的设计理念。以下为部分访谈内容的编辑整理:
问:在第四季度达到特斯拉FSD V14的水平,理想汽车还需要在哪些方面进行提升?
**詹锟:**我认为在追赶FSD方面,存在两个层面的考量。
首先是基础体验,这具体体现在三个方面:安全感、效率和舒适度是否能达到FSD的同等水平。FSD在安全感方面表现出色,效率也很高,舒适度同样令人满意,这些是其核心优势。即使不挑战极端路况,我们也能在这些基础体验上达到同等水平。
其次是高级能力,这一点追赶起来也相当困难。例如,特斯拉能够主动礼让特殊车辆,在极窄路况下保持精准的感知能力,并且能够识别交警的指挥手势,这些能力都非常强大。
在能力层面,存在架构升级的机会。为什么其他公司没有而特斯拉拥有这些能力?这可能与过去的范式限制有关,也与架构和数据等因素有关。我们在这些方面进行了大量探索。
问:我理解马赫VLA是一个技术体系,而非单一模型。例如,Mind-Edge是面向终端、服务于智能座舱的模型。那么,当前智能驾驶模型中是否还包含“L”(Language语言)的部分?
**詹锟:**当前自动驾驶架构普遍呈现出将VLA(视觉-语言-动作模型)与World Model(世界模型)整合的趋势。
从长远来看,所有技术路线都将朝着这个方向发展。无论是VLA还是World Model,其中的提示(Prompt)都需要用到语言。因此,语言部分是必然存在的,关键在于如何有效运用它。
在机器智能领域,我认为基于视觉(Vision Based)的 approach 是更合理的,它有助于理解空间、感知三维空间以及服务于环境。语言固然有用,对于理解环境、交通规则、指令以及进行复杂的决策思考都具有价值。
从长远来看,基于视觉和语言的原生基础模型,可能代表着未来的发展趋势。
**谢炎:**如果目标是实现L3、L4级别的自动驾驶,并解决更泛化的问题,那么模型就需要具备类似人类的思考能力。在这种情况下,语言的重要性将日益凸显,这也是未来需要巨大算力的原因之一。
如果模型仅具备视觉和动作能力,即使拥有海量数据,在遇到分布之外的场景时也会束手无策。就像动物即使学会了所有常见情况,遇到从未见过的情况也可能不知所措,无法做出正确的选择。
我们认为,越是朝着L3、L4级别发展,需要解决的问题就越接近90%、95%、98%之后的那些“未知”场景,这些场景要求模型具备人类一样的思考能力。而实现类人的推理和思考能力,其重要来源便是语言模型。例如,交警打手势示意你通行或停止,这并非仅仅通过收集数据或生成数据就能完全解决的问题。
问:随着理想汽车车队规模的不断扩大,从内部来看,数据的边际效应是否出现了衰减?你们是如何定义“价值数据”的?
**詹锟:**首先,数据的量必须足够庞大,核心目的是收集更多的Corner Case(长尾场景)。目前,业界已经开发出多种方法,通过车端精密的神经网络触发器来判断场景的难易程度,并将关键数据回传。这也是特斯拉在数据方面表现出色的重要原因之一。
其次,数据的质量至关重要,尤其体现在行为质量方面。当前,业界逐渐趋向于端到端的范式,无论是VLA(视觉-语言-动作模型)、World Model(世界模型)还是Vision-Action(视觉-动作模型),都离不开对“动作”(Action)的准确把握。因此,行为的质量、干净程度和一致性变得尤为重要。
至于数据规模扩大后边际效应是否衰减的问题,只要模型在不断提升,并且我们致力于追求极致的性能,那么数据收敛的效果必然呈现“对数曲线”的增长,而非线性增长,这是所有AI公司都面临的普遍规律。尽管后期数据带来的提升速度有所放缓,但我们依然希望通过规模效应来加速这一进程。
问:马赫M100芯片能够应用于多种AI场景。展望五年或更远的未来,理想汽车车内的算力中心是否有可能全部采用自研的马赫芯片?
**谢炎:**尽管业内存在“舱驾一体”的说法,但我们认为,舱驾一体最核心的部分在于AI算力。其他部分的集成度则不那么关键。因为座舱系统和AI智能驾驶系统可以完全独立运行,但AI算力可以集中处理,从而显著提高分配效率。
我们的路线图最终目标是构建一个集中的车载AI计算中心,所有AI任务都可以在此进行计算。这类似于在笔记本电脑上运行OpenClaw,AI计算并非在本地笔记本上完成,而是通过Token Provider Server(Token供应服务器)实现,车内也计划采用类似的Token Server(Token服务器)架构。
这种Token Server的优势在于:第一,极高的运行效率。第二,能够实现不同任务之间的相互隔离,互不干扰。例如,智能驾驶任务的确定性,包括内存和带宽的保障,能够避免被其他任务干扰,这是软硬件协同设计才能实现的关键。
问:是否因为M100采用了数据流架构,其对带宽的需求相较于其他厂商的自动驾驶芯片较低,但对片上存储的需求更高?
**谢炎:**我们对带宽的要求确实较低,但这并非直接导致设计SRAM容量(而非显存)的原因。目前HBM(高带宽内存)非常流行,许多人认为带宽越高越好。然而,计算、带宽、SRAM等都需要晶体管资源来实现,最终的设计选择是基于成本、综合性能等多方面权衡的结果。
仅仅依靠一两个指标来简单对比不同架构的设计是既不合理也不专业的。这就像一场拳击比赛,身高和体重都有各自的优势,但胜负并非由单一指标决定,最终取决于比赛的整体表现。
问:为何目前的高算力芯片方案,如英伟达、小鹏以及理想自研的芯片,都没有实现芯片级的舱驾融合,而高通却在低算力芯片上进行了尝试?
**谢炎:**本质上,座舱和驾驶是两个独立的系统。特别是对于向L3、L4级别发展的智能驾驶而言,需要一个更高确定性的系统,要求内存和计算资源是专属的,此时融合的意义便大大降低。因为资源无法实现实时切换,而实时切换会影响系统的确定性。如果系统朝着越来越专用的方向发展,融合的价值就不大了——即使将两个芯片集成在一起,晶体管数量可能不变,仅能节省封装成本。对于中低端芯片而言,这部分成本节省有限。
我们认为,随着智能驾驶的不断高端化,舱驾融合的意义将逐渐减弱。如果将这些芯片做得更靠近,集成在一块板上形成紧凑的方案是可以的,但未必需要集成到同一块芯片上,也可以是多块芯片的集成。
问:自研芯片需要哪些条件,例如销量、营收和研发投入?鉴于当前自动驾驶迭代速度飞快,芯片的持续迭代又需要具备哪些条件?
**谢炎:**芯片的初期投入确实不菲,可能每年需要数亿元人民币。
首先,需要达到一定的营收规模。对于车企而言,年营收达到1000亿元以上,研发投入至少占10%,即每年有数十亿甚至上百亿元的资金用于芯片研发是可行的。其次,芯片的研发必须能够提升产品的核心竞争力。
许多人认为芯片需要巨大的出货量才能摊薄成本。但实际上,芯片的成本与面积密切相关。一辆车上的智能驾驶芯片,例如理想汽车采用了两颗马赫M100,总面积约为800平方毫米。而一款高端手机的芯片面积大约为100平方毫米,因此一辆车的智能驾驶芯片面积相当于8部高端手机。
如此计算,数十万辆车的销量所需晶圆面积非常可观,足以有效摊薄成本。因此,成本不能仅以单颗芯片的数量来衡量。
问:动态数据流编译器的难点何在?攻克这一技术花了多长时间?
**谢炎:**在芯片流片之前,甚至在设计阶段,我们就已经开始进行编译器的工作,并在流片前完成了许多模型的运行验证。
数据流是一种完全不同的架构,它所要解决的问题与超级计算机或大规模计算机集群面临的问题非常相似——当规模扩展到数十万台计算机、上百万个核心时,它们之间的通信和协作需要一种高效的调度机制,而传统的冯·诺依曼架构的调度方式在这种规模下已不可行。这是一个超大规模并行调度的挑战。
2 条评论
精选九游真人内容,jiuyou与你一同发现更多精彩。
2017年10月20日 上午10:21jiuyou专注九游娱乐,为用户提供专业可靠的体验。
Rashed K
2017年10月20日 上午10:21围绕九游体育,jiuyou持续打磨更优质的服务。
- [email protected]
- +86 138-
- 广州市天河区天河北路756号

jiuyou深耕安全可靠的金融交易平台领域,用心服务每一位用户。