熊猫体育:您的专属体育资讯平台
在智能驾驶领域,竞争焦点已从早期的硬件比拼(如激光雷达、摄像头数量、算力水平)演变为如今的大模型时代,并进一步转向端到端、VLA(视觉-语言-行为)以及World Model(世界模型)等技术路线。
当前,单纯拥有更大的模型已不足以形成代际优势。真正的关键在于模型、数据、算力和芯片之间能否构建一个持续迭代的闭环。这促使越来越多的汽车制造商走向自主研发。
特斯拉在数据采集、训练基础设施、FSD模型乃至Dojo和自研芯片等全环节均实现了自主掌控。在中国,小鹏、蔚来和理想等车企也在不断向下游延伸其技术布局。
理想汽车在今年推出的L8和L9车型中,已采用了自研的马赫M100芯片,其数据流架构被理想视为AI领域的重要技术方向。同时,理想也在马赫M100上运行了自研的马赫VLA模型。
然而,对于整个行业而言,更值得探讨的并非“是否自研”,而是这些研发投入究竟能解决哪些实际问题。
针对这一问题,理想汽车自动驾驶负责人詹锟和芯片负责人谢炎在接受采访时,阐述了理想对下一代自动驾驶技术路线的判断,并解释了自研芯片、数据体系和AI基础设施背后的设计思路。以下为访谈的主要内容,经过编辑整理:
问:为达到特斯拉FSD V14的第四季度效果,理想汽车在哪些方面还需要努力?
**詹锟:**我认为在追赶FSD方面,需要关注两个层面。
首先是基础体验,这包括安全感、效率和舒适度是否能达到FSD的同等水平。FSD在这三方面都表现出色,这是其核心优势。即使在非极端路况下,也能达到同等水准。
其次是能力层面,这方面追赶难度更大。例如,特斯拉在礼让特殊车辆、在极窄通道内的感知精度以及识别交警指挥等方面的能力尤为突出。
能力上的提升可能源于架构的升级。为何某些能力只有特斯拉具备?这可能与过往的范式限制、架构或数据等因素有关。我们在这些方面做了大量的探索。
问:我理解马赫VLA是一套技术体系,而非单一模型。例如,Mind-Edge是服务于智能座舱的端侧模型。那么,当前智能驾驶模型中是否还包含“L”(Language语言)部分?
**詹锟:**当前的自动驾驶架构普遍趋势是将VLA(视觉-语言-行为模型)与World Model(世界模型)整合。
从长远来看,所有技术路线都将朝着这个方向发展。无论是VLA还是World Model,其提示(Prompt)部分都需要用到语言。因此,语言是不可或缺的,关键在于如何运用。
在机器智能领域,我认为基于视觉(Vision Based)的 approach 更为合理,它有助于理解空间、三维环境以及与环境的交互。语言在理解环境、交通规则、指令以及进行复杂决策方面具有重要价值。
长远来看,基于视觉和语言的原生基础模型,可能是未来的发展趋势。
**谢炎:**如果目标是L3、L4级别自动驾驶,需要解决更泛化的问题,模型就必须具备类似人类的思考能力。此时,语言的重要性将愈发凸显,这也是未来需要大量算力的原因。
如果模型仅具备视觉和行为(Vision and Action)能力,即使拥有海量数据,在遇到分布外(out-of-distribution)的情况时也会束手无策。就像动物即使学会了所有常见情景,面对从未见过的情况也可能不知所措。
我们认为,越是向L3、L4级别迈进,需要解决的问题越接近90%、95%、98%之后的场景——那些前所未见的问题,需要模型具备类人思考能力。而获取这种推理和思考能力,语言模型是关键。例如,理解交警的手势含义,这并非仅仅通过收集或生成数据就能解决。
问:随着理想汽车车队规模的扩大,从内部视角看,数据的边际效应是否出现了衰减?理想汽车是如何定义有价值的数据的?
**詹锟:**首先,数据的量必须足够庞大,核心目标是收集更多的Corner Case(长尾场景)。目前,业界普遍采用多种方法,例如在车端部署神经网络触发器,以识别并回传关键的难点场景数据。这也是特斯拉在数据方面优势显著的原因之一。
其次,数据质量至关重要,尤其体现在行为数据的质量上。当前,行业逐渐趋向于端到端的范式,无论是VLA、World Model还是Vision-Action模型,其关键在于对行为(Action)的准确把握。因此,行为数据的干净程度和一致性尤为重要。
至于数据规模扩大后边际效应是否衰减,只要模型持续进步,能力不断提升,其增长曲线必然是对数增长,而非线性增长,这是AI领域的普遍规律。尽管后期数据收敛速度会放缓,但我们仍希望通过规模效应来加速这一过程。
问:马赫M100能够支持多种AI场景的运行。展望未来五年或更长远的几代产品,理想汽车车内的算力中心是否有可能完全采用自研的马赫芯片?
**谢炎:**虽然业内存在“舱驾一体”的说法,但我们认为其核心在于AI算力部分,其他部分是否一体化并非关键。座舱系统与AI智能驾驶系统可以完全独立,但AI算力集中部署可以显著提升效率。
我们的路线图最终目标是构建一个车内AI计算中心,所有AI任务均在此进行计算。这类似于笔记本电脑运行某个程序时,计算并非在本地完成,而是在云端服务器进行。车内也将类似,设有一个“Token Server”。
该“Token Server”的优势在于:第一,极高的效率;第二,能够实现不同任务的隔离,互不干扰。例如,智能驾驶任务的确定性,包括内存和带宽,可以得到保障,不被其他任务影响。这是软硬件协同设计才能实现的目标。
问:是否因为M100采用了数据流架构,其对带宽的需求低于其他厂商的自动驾驶芯片,而对片上存储的需求更高?
**谢炎:**我们对带宽的要求确实较低,但这并非直接导致SRAM容量(非显存)设计的原因。当前HBM(高带宽内存)备受关注,许多人认为带宽越高越好。然而,计算、带宽、SRAM等都需要晶体管来实现,最终的设计是在成本、综合性能等多方面权衡后的选择。
不同架构的设计,仅凭一两个指标进行简单对比是不合理且不专业的。这如同拳击比赛,身高和体重各有优势,但胜负并非由单一指标决定,最终取决于比赛的整体表现。
问:为何当前的大算力芯片方案,如英伟达、小鹏、理想自研的芯片,均未实现芯片级的舱驾融合,而高通却在低算力芯片上进行了尝试?
**谢炎:**本质上,座舱和驾驶是两个独立的系统。尤其对于高端L3向L4的演进,智能驾驶需要更高的确定性系统,包括专属的内存和计算资源,此时融合的意义便大大降低。因为资源无法实时切换,实时切换会影响确定性。如果方向是越来越独立的,融合的价值就不大了。即便将两个芯片集成在一起,晶体管数量可能不变,仅节省了封装成本。这对于中低端芯片来说可以节省部分成本,但幅度有限。
我们的观点是,随着智能驾驶的日益高端化,舱驾融合的意义将不大。如果将这些芯片做得更紧密,在一个板上实现高度集成化方案是可以的,不一定非要集成在一块芯片上,也可以是多块芯片协同工作。
问:自研芯片需要哪些条件,例如销量、营收和研发投入?考虑到自动驾驶迭代速度很快,芯片的持续迭代需要具备哪些条件?
**谢炎:**芯片的初期投入相当可观,可能每年需要数亿元。
首先,需要达到一定的营收规模。对于车企而言,年营收达到1000亿元以上,研发投入至少占10%,即每年数十亿至百亿的投入,才足以支撑芯片研发。其次,芯片研发必须能显著提升产品的核心竞争力。
许多人认为芯片需要巨大的出货量。实际上,芯片成本与面积相关。一辆车上的智能驾驶芯片,例如Livis使用两颗马赫M100,总面积约800平方毫米。而高端手机芯片面积约为100平方毫米,因此一辆车的智能驾驶芯片面积相当于8部高端手机。
按此计算,数十万辆车的晶圆需求量非常大,足以摊薄成本。因此,成本不能仅以单颗芯片的数量来衡量。
问:动态数据流编译器的难点何在?攻克这一难题花费了多长时间?
**谢炎:**在芯片流片前,甚至在设计阶段,我们就已开始编译器工作,并在流片前完成了许多模型的验证。
数据流是一种完全不同的架构,其需要解决的问题类似于超级计算机或大规模计算机集群所面临的挑战——当规模扩展到数十万台计算机、上百万个核心时,它们之间的通信和协作需要高效的调度机制,无法依赖单一的中央管理员。传统的冯·诺依曼架构调度方式在此规模下已不可行,这是一个超大规模并行调度问题。