2017 年,行业里聊的还是 Velodyne 的 64 线激光雷达够不够用,那时候一台就要几十万,是不折不扣传说中的神器;到了 2020 年,话题就换成了 BEV 架构和占用网络谁更能代表下一代感知;而到了 2022 年,新车扎堆上激光雷达,纯视觉和多传感器的对立炒到了顶峰;但是现在,头部公司聊的已经是 VLA、世界模型、端到端大模型和强化学习后训练,激光雷达没人提了。一个是 VLA,也就是视觉 - 语言 - 动作模型。

小鹏副总裁托马斯电火车(于涛)那条微博发出来的时候,我第一反应是,至于这么大动肝火吗。

翻了一圈传播链才明白,倒也难怪。消息最早从几个车友群里流出来,接着被汽车类短视频账号剪成长短句配音,很快就传遍了论坛和评论区。说法也很规整:工信部新国标定了,L3 必须装毫米波雷达,L4 强制上激光雷达,2027 年全面落地,连实施年份都编得有零有整。刚好小鹏这段时间把纯视觉方案推到了品牌主阵地,等于有人隔着人群照着面门递了一拳,换谁都没法装没看见。

于涛的回应很干脆:翻了标准文件,连 “激光雷达” 四个字都没出现。

本来就是一句再正常不过的事实澄清,结果反而把另一个更老的话题又架在了火上 —— 激光雷达和纯视觉,到底谁才是智驾的正道?

挺荒诞的。因为这场吵了快五年的争论,从最开始就建立在一个错误的前提上。

被喂养的伪对立

去翻一遍驾驶自动化系列强制国标的报批稿就能看懂,整套标准的底层逻辑自始至终都是 “管结果,不管手段”。

以 GB 44721、GB 44722 为核心的准入规则,只给感知精度、响应时延、失效降级能力划红线,要求转向、制动、算力三层系统安全冗余,但从来没有点名要求任何一种传感器硬件。

毫米波雷达也好,摄像头也好,激光雷达也罢,都只是达标的可选工具,不是准入门槛。换句话说,只要你能完整通过所有测试项,哪怕用超声波雷达凑出了同等性能,理论上也合规。

这条谣言能传得这么顺,本质上是一次非常熟练的概念偷换:把 “系统层面需要安全冗余”,偷换成 “传感器硬件必须冗余”,再扣上 “国标强制” 的权威帽子,刚好踩中了大众最熟悉的那条叙事肌肉记忆。

毕竟 “激光雷达派大战纯视觉派” 实在是太好用的流量模板了。两边都有旗帜鲜明的代表人物,有清晰的阵营标签,有过往的恩怨伏笔,随手一写就是火药味,读者也乐得站队表态。只是很少有人停下来想,这两个东西,本来就不是非此即彼的选择题。

更耐人寻味的是,这套叙事能活这么久,也和早年的行业营销脱不开关系。

前几年新势力冲高端的时候,激光雷达是最直观的配置差异化符号,有没有、有几颗,直接能写进车型标题里。消费者也习惯了对着配置表数硬件,数量多就是高级,参数高就是厉害。双向喂养之下,“硬件 = 能力” 的认知越扎越深,谣言自然也就有了生长的土壤。

智驾壁垒早已脱离硬件层

更有意思的是,当圈外人还在为传感器选型吵得热火朝天,圈内的主战场早就搬了家。

2017 年,行业里聊的还是 Velodyne 的 64 线激光雷达够不够用,那时候一台就要几十万,是不折不扣传说中的神器;到了 2020 年,话题就换成了 BEV 架构和占用网络谁更能代表下一代感知;而到了 2022 年,新车扎堆上激光雷达,纯视觉和多传感器的对立炒到了顶峰;但是现在,头部公司聊的已经是 VLA、世界模型、端到端大模型和强化学习后训练,激光雷达没人提了。

关键词换得一年比一年快,背后的逻辑却很朴素,当一样东西能靠规模化量产把成本打下来,它就成不了长期护城河。

很多人说激光雷达现在是白菜价,这话半真半假。以禾赛为例,2026 年一季度产品综合 ASP 约 1441 元,入门补盲款已经摸到了 700 元档,和早年十数万元级的价格比确实是天差地别,但主雷达依然维持在千元以上,远没到 “随便装不心疼” 的地步。但核心趋势是确定的:硬件的成本曲线永远向下,不同方案的物理差距只会越缩越小。

就像智能手机刚出来那几年,所有人都在争论屏幕尺寸,3.5 寸还是 4 寸,电容屏还是电阻屏,吵得不可开交。没过几年屏幕就成了最标准化的配件,再也没人靠这个定胜负。真正拉开差距的,是系统生态,是开发者规模,是数据飞轮。

智驾行业现在就在经历一模一样的阶段。

今天头部玩家真正在卷的东西,说出来很多人可能没什么概念,核心是两件事。

一个是 VLA,也就是视觉 - 语言 - 动作模型。传统智驾系统本质是个 “反应黑盒”:输入画面,直接输出方向盘角度、油门刹车力度,中间没有可被人类理解的逻辑链路。做对了不知道为什么对,做错了也说不清错在哪。这也是智驾事故永远扯不清楚的根源 —— 系统没法自证决策逻辑,监管没法定责,保险没法定损,用户自然也难建立信任。

VLA 的核心差别,是在感知和动作之间加了一层可解释的语言推理。同样是遇慢车变道,传统系统直接执行转向,VLA 会先走完一整套判断:前车车速低于道路限速,左车道空闲,后方无快速来车,满足安全变道条件,再输出动作,还能把这段思考过程用自然语言还原出来。

看起来只是多了一句解释,对行业的价值却是根本性的。国内 L3 级准入规则里,本来就要求系统具备事件数据记录能力,VLA 的可解释性刚好踩中了监管的核心诉求。真出了事故,系统能给出完整决策链:减速是因为前车突发制动,同时右侧有行人闯入车道,后车跟车距离过近不适宜紧急变道。三方的信任成本,和黑盒时代完全不是一个量级。

另一个是世界模型。实车训练有个天然的天花板,极端复合场景太少了。跑一千万公里,都未必能碰到一次 “雨夜高速 + 路面散落货物 + 对向逆光 + 行人横穿” 的极端工况,但自动驾驶恰恰要搞定这些万分之一的意外。靠实车堆里程,效率太低,成本太高,也太危险。

世界模型干的就是无限生成训练场景的活。你可以理解成一个永不打烊的模拟考场,雨雾冰雪、逆光眩光、违规穿行、突发事故,所有边缘场景都能批量生成,还能自由排列组合,让模型在里面反复试错迭代,不用承担任何现实风险。

英国公司 Wayve 2023 年推出的 GAIA-1 就是典型代表,整套模型 90 亿参数,由 65 亿的世界模型主干和 26 亿的视频解码器组成,能靠文字描述生成连续的驾驶场景。而国内的华为、理想、小鹏也早都布局了自己的仿真训练平台,这早已不是某一家的独门技术。

当能推理的大脑,配上无限生成的训练场,一个自我迭代的技术飞轮才算真正转起来。这才是今天行业真正的无人区。

叙事泡沫下的分途赛跑

再看各家的真实布局,分歧早就不在传感器数量上了。

特斯拉还是最决绝的那个,坚持端到端神经网络的大方向,赌的是全球约 600 万辆搭载 FSD 硬件的车队,能用海量实车数据堆出算法优势,弥补纯视觉的物理感知短板。

当然这 600 万是硬件搭载总量,真正开通高阶智驾服务的车辆远不到半数,但这个基数依然是其他玩家短期内望尘莫及的壁垒。顺带一提,北美最新的 HW4.0 车型已经悄悄加回了毫米波雷达,所谓 “绝对纯视觉” 从来都不是僵化的教条,只是阶段性的技术取舍。

理想、小米、元戎启行等这批国内玩家,基本都押注 VLA 路线,只是解法各有不同:理想在视觉感知之外叠加了 3D 高斯建模提升空间精度,小米用 Q-Former 架构桥接视觉与语言模态,元戎启行则更侧重思维链推理的落地效果。大方向一致,细节上分高下。

华为走的是另一条路。对外明确表示不做 VLA,主推 WA 架构,也就是由世界模型直接输出驾驶动作,不插入独立的自然语言推理层。

很多人调侃华为 “嘴上不说身体诚实”,其实是混淆了概念,华为的车载大模型主要用在人机交互、语义指令理解上,并不介入驾驶决策的主链路。选择 WA 的核心逻辑,是认为语言推理会增加系统时延,而高阶驾驶需要极致的端到端响应速度,这是底层技术路线的取舍,谈不上谁抄谁。

至于 Waymo 这类传统 L4 玩家,依然坚持多传感器冗余 + 大规模实车测试的重资产路径,是最稳妥也最昂贵的打法。但他们同样在加码世界模型与仿真训练,没有谁真的抱着老办法一成不变。

没有绝对的对错,都是基于自身资源禀赋的技术赌注。比起几年前非黑即白的线上骂战,今天的行业分歧要专业得多,也 “无聊” 得多,毕竟模型架构、训练方式、后训练算法这些东西,远不如 “有没有激光雷达” 适合拿来吵架和做标题。

说回于涛这次辟谣。很多人解读成小鹏为纯视觉路线站台,当然有这层意思,但又不止于此。他这一下,其实戳破了整个行业裹了好几年的一层叙事泡沫。

泡沫的这一边,是自媒体反复翻炒的二元对立,是消费者盯着配置表数雷达个数的认知惯性;泡沫的另一边,是监管用性能指标替代硬件清单的务实,是头部厂商在大模型与仿真领域的无声竞速。两边的信息差,大到像活在两个平行世界。

所以,以后再刷到 “激光雷达 vs 纯视觉” 的标题,基本可以直接划走。要么是三四年前的旧文翻出来重发,要么是又有人在贩卖对立赚流量。

智驾这东西,胜负从来都不取决于装了几颗 “眼睛”。看的是有没有一颗能解释、会推理的大脑,有没有能无限生成极端场景的训练场,有没有能越转越快的迭代飞轮。

至于小鹏能不能在新赛道上跟上第一梯队,现在没人能给确定答案。

但至少这一次,于涛把很多人不肯醒的一个旧梦,给戳破了。那个靠传感器参数就能定高下的时代,早就翻篇了。

声明:本站原创文章文字版权归电科技所有,转载务必注明作者和出处;本站转载文章仅仅代表原作者观点,不代表电科技立场,图文版权归原作者所有。如有侵权,请联系我们删除。
分享到: