追赶FSD V14，理想在补哪些课？｜最前线

过去几年，自动驾驶行业竞争的焦点发生了显著变化。

初期，竞争主要围绕硬件展开，例如是否配备激光雷达、摄像头的数量以及计算能力（TOPS）。随后，随着大模型时代的到来，竞争转向了端到端、VLA（视觉-语言-行为）和World Model（世界模型）等技术路线。

如今，越来越多的公司认识到，仅仅拥有更大的模型已不足以形成代际优势。真正决定技术上限的，开始转变为模型、数据、算力和芯片之间能否构建一个持续优化的闭环。

这也是为什么越来越多的汽车制造商选择自主研发。

特斯拉几乎涵盖了从数据采集、训练基础设施、FSD模型到Dojo计算集群、自研芯片的整个链条。在中国，小鹏、蔚来和理想等车企也在不断向下游延伸其研发能力。

在今年推出的L8和L9车型上，理想汽车已搭载了其自研的马赫M100芯片。这款采用数据流架构的芯片被理想汽车视为AI领域的重要技术方向。同时，理想汽车也在马赫M100上运行了其自研的马赫VLA模型。

然而，对于整个行业而言，更值得探讨的问题并非“是否自研”，而是这些研发投入究竟能解决哪些实际问题。

带着这个问题，我们与理想汽车自动驾驶负责人詹锟和芯片负责人谢炎进行了交流。他们分享了理想汽车对下一代自动驾驶技术路线的判断，并阐述了自研芯片、数据体系及AI基础设施背后的设计理念。以下是经过编辑的访谈摘要：

问：为了在第四季度达到特斯拉FSD V14的性能水平，理想汽车还需要在哪些方面努力？

詹锟：我认为在追赶FSD方面，需要关注两个层面。

首先是基础体验，具体体现在安全感、效率和舒适度是否能达到FSD的同等水准。FSD在安全感、效率和舒适度方面表现出色，这是其基本功。即使不挑战极端路况，也能在这些基本功上达到同等水平。

其次是高级能力，这方面追赶难度更大。例如，特斯拉在礼让特殊车辆、在极窄路况下的精准感知，以及识别交警指挥等方面表现突出。

这些能力上的提升可能源于架构的升级。为什么某些能力只有特斯拉拥有？这可能与过去的范式限制、架构设计或数据积累有关。我们在这些方面进行了大量探索。

问：我理解马赫VLA是一个技术体系而非单一模型。例如，Mind-Edge是服务于智能座舱的端侧模型。那么，目前的智能驾驶模型中是否还包含“L”（Language语言）的部分？

詹锟：当前自动驾驶的架构普遍趋向于整合VLA（视觉-语言-行为模型）和World Model（世界模型）。

从长远来看，所有技术路线都会朝着这个方向发展。无论是VLA还是World Model，其内部的Prompt（提示）都需要用到语言。因此，语言是必然存在的，关键在于如何运用它。

我认为，对于机器智能而言，基于视觉（Vision Based）的理解方式更符合空间感知、三维环境理解和环境服务的需求。语言在理解环境、交通规则、指令以及进行复杂决策时具有重要价值。

从长远来看，基于视觉和语言的原生基础模型，可能是未来的发展趋势。

谢炎：如果目标是实现L3、L4级别自动驾驶，需要解决更广泛的问题，那么模型必须具备类似人类的思考能力。届时，语言的重要性将愈发凸显，这也是未来需要巨大算力的原因。

如果模型仅具备视觉和行为能力，即使拥有海量数据，在遇到分布之外的场景时也会束手无策。就像动物即使学会了所有常见情况，面对从未见过的情形也会不知所措。

我们认为，越是向L3、L4级别迈进，需要解决的问题越接近90%、95%、98%之后的部分——那些前所未见的、需要模型具备人类般思考能力的问题。而获得类似人类的推理和思考能力，其来源是语言模型。例如，理解一名交警的手势含义，这并非仅仅通过收集或生成数据就能解决。

问：随着理想汽车车队规模的扩大，内部是否感知到数据边际效应的衰减？理想汽车是如何定义有价值数据的？

詹锟：首先，数据的量必须足够庞大，核心目的是收集更多Corner Case（长尾场景）。目前，行业内有多种方法，例如在车端部署先进的Neural Trigger（神经网络触发器），以识别并回传关键数据。这也是特斯拉在数据方面表现突出的原因之一。

其次，数据的质量至关重要，尤其是行为数据的质量。当前，行业逐渐趋向于端到端范式，无论是VLA（视觉-语言-行为模型）、World Model（世界模型）还是Vision-Action（视觉-动作模型），都必须关注Action（行为）的质量。行为的清晰度、一致性至关重要。

至于数据规模增大后边际效应是否衰减，只要模型能力不断提升，追求100%的性能，数据带来的提升曲线必然是对数增长，而非线性增长，这是所有AI公司面临的普遍情况。尽管后期数据收敛速度会放缓，但我们仍希望通过规模化来加速这一过程。

问：马赫M100可以应用于多种AI场景。展望未来五到十年，理想汽车车内的算力中心是否有可能全部采用自研的马赫芯片？

谢炎：虽然业内存在“舱驾一体”的说法，但我们认为其核心在于AI算力部分，其他部分的集成度并非关键。座舱系统和AI智驾系统可以完全独立，但AI算力集中处理可以大幅提升效率。

我们的路线图最终目标是构建一个车内AI计算中心，处理所有AI任务。这类似于笔记本电脑运行某些应用时，计算任务并非在本地完成，而是在Token Provider Server（Token供应服务器）上进行，车内也可能设立类似的Token Server（Token服务器）。

这种Token Server的优势在于：一是效率极高。二是能够实现不同任务的隔离，互不干扰。例如，智驾任务的确定性，包括内存和带宽的保障，不会被其他任务影响，这是软硬件协同设计才能实现的。

问：是否因为M100采用了数据流架构，相对于其他厂商的自动驾驶芯片，其对带宽的需求较低，而对片上存储的需求更高？

谢炎：我们对带宽的要求确实较低，但这并非直接导致SRAM容量（而非显存）设计的决定性因素。当前HBM（高带宽内存）备受关注，许多人认为带宽越高越好。但计算、带宽、SRAM等都需要晶体管资源来实现，最终的设计是综合考虑成本、整体性能等多种因素后的选择。

不同架构的设计，不能仅凭一两个指标进行简单对比，这样做既不合理也不专业。这就像拳击比赛，身高和体重都有各自的优势，但胜负并非由单一指标决定，最终取决于比赛的整体表现。

问：为何当前的大算力芯片方案，如英伟达、小鹏以及理想自研的芯片，都没有实现芯片级的舱驾融合，而高通在低算力芯片上却做到了这一点？

谢炎：本质上，座舱和驾驶是两个独立的系统。特别是对于迈向L3、L4级别的高端智驾，其系统需要更高的确定性，包括专属的内存和计算资源，此时融合的意义就大大减小了。因为资源无法实时切换，实时切换会降低确定性。如果朝着越来越专用的方向发展，融合的价值就不大了——即便将两颗芯片集成在一起，资源仍是独立的，这并不能显著降低成本，甚至可能影响效率。

目前市面上的舱驾融合系统，其资源分配仍然是分开的。如果无法实现任务的快速切换，将两颗芯片集成到一块，晶体管数量可能不变，但可以节省封装成本。对于中低端芯片而言，这部分成本节省是可能的，但幅度有限。

我的观点是，随着智驾系统日益高端化，舱驾融合的重要性可能逐渐降低。如果将芯片设计得更紧凑，集成在一块电路板上实现小型化集成方案，这是可行的，不一定非要集成到单颗芯片上，也可以采用多芯片协同的方案。

问：自研芯片需要哪些条件，例如销量、营收和研发投入？鉴于自动驾驶迭代速度快，芯片的持续迭代需要具备哪些条件？

谢炎：芯片的初期投入相当可观，可能每年需要数亿元。

首先，需要达到一定的营收规模。对于车企而言，年营收达到1000亿元以上，研发投入至少占10%，即每年有数十亿至上百亿元的投入，才足以支撑芯片的研发。其次，研发的芯片必须能显著提升产品的核心竞争力。

许多人认为芯片需要巨大的出货量才能摊薄成本。实际上，芯片的成本与其面积密切相关。一辆车上的智驾芯片，例如理想L8/L9配备的2颗马赫M100，总面积约800平方毫米。而一款高端手机芯片的面积约为100平方毫米，因此一辆车的智驾芯片面积相当于8部高端手机芯片。

按照这个比例计算，几十万辆车的晶圆需求量非常大，足以有效摊薄成本。因此，不能仅以芯片数量来衡量成本。

问：动态数据流编译器的难点在哪里？攻克这一技术花了多长时间？

谢炎：我们在流片之前，甚至在设计阶段就开始进行编译器开发工作，在流片前就已经成功运行了许多模型。

数据流架构与传统架构截然不同，它需要解决的问题类似于超级计算机或大规模计算机集群所面临的挑战——当规模扩展到数十万台计算机、上百万个核心时，它们之间的通信与协作变得异常复杂，无法依靠单一的中央管理器来协调。传统的冯·诺依曼架构调度方式在这种规模下难以奏效，这是一个超大规模并行调度的难题。

旺财28大舞台，有梦你就来！

热门资讯

精选专题

玩转旺财28，精彩活动等你来！

掌握最新资讯，抢占活动先机！

深度解读，玩转理财新玩法！

互动社区

平台公告

往期回顾

平台介绍

立即注册，开启财富之旅