2017 年，行业里聊的还是 Velodyne 的 64 线激光雷达够不够用，那时候一台就要几十万，是不折不扣传说中的神器；到了 2020 年，话题就换成了 BEV 架构和占用网络谁更能代表下一代感知；而到了 2022 年，新车扎堆上激光雷达，纯视觉和多传感器的对立炒到了顶峰；但是现在，头部公司聊的已经是 VLA、世界模型、端到端大模型和强化学习后训练，激光雷达没人提了。一个是 VLA，也就是视觉 - 语言 - 动作模型。

小鹏副总裁托马斯电火车（于涛）那条微博发出来的时候，我第一反应是，至于这么大动肝火吗。

翻了一圈传播链才明白，倒也难怪。消息最早从几个车友群里流出来，接着被汽车类短视频账号剪成长短句配音，很快就传遍了论坛和评论区。说法也很规整：工信部新国标定了，L3 必须装毫米波雷达，L4 强制上激光雷达，2027 年全面落地，连实施年份都编得有零有整。刚好小鹏这段时间把纯视觉方案推到了品牌主阵地，等于有人隔着人群照着面门递了一拳，换谁都没法装没看见。

于涛的回应很干脆：翻了标准文件，连 “激光雷达” 四个字都没出现。

本来就是一句再正常不过的事实澄清，结果反而把另一个更老的话题又架在了火上 —— 激光雷达和纯视觉，到底谁才是智驾的正道？

挺荒诞的。因为这场吵了快五年的争论，从最开始就建立在一个错误的前提上。

被喂养的伪对立

去翻一遍驾驶自动化系列强制国标的报批稿就能看懂，整套标准的底层逻辑自始至终都是 “管结果，不管手段”。

以 GB 44721、GB 44722 为核心的准入规则，只给感知精度、响应时延、失效降级能力划红线，要求转向、制动、算力三层系统安全冗余，但从来没有点名要求任何一种传感器硬件。

毫米波雷达也好，摄像头也好，激光雷达也罢，都只是达标的可选工具，不是准入门槛。换句话说，只要你能完整通过所有测试项，哪怕用超声波雷达凑出了同等性能，理论上也合规。

这条谣言能传得这么顺，本质上是一次非常熟练的概念偷换：把 “系统层面需要安全冗余”，偷换成 “传感器硬件必须冗余”，再扣上 “国标强制” 的权威帽子，刚好踩中了大众最熟悉的那条叙事肌肉记忆。

毕竟 “激光雷达派大战纯视觉派” 实在是太好用的流量模板了。两边都有旗帜鲜明的代表人物，有清晰的阵营标签，有过往的恩怨伏笔，随手一写就是火药味，读者也乐得站队表态。只是很少有人停下来想，这两个东西，本来就不是非此即彼的选择题。

更耐人寻味的是，这套叙事能活这么久，也和早年的行业营销脱不开关系。

前几年新势力冲高端的时候，激光雷达是最直观的配置差异化符号，有没有、有几颗，直接能写进车型标题里。消费者也习惯了对着配置表数硬件，数量多就是高级，参数高就是厉害。双向喂养之下，“硬件 = 能力” 的认知越扎越深，谣言自然也就有了生长的土壤。

智驾壁垒早已脱离硬件层

更有意思的是，当圈外人还在为传感器选型吵得热火朝天，圈内的主战场早就搬了家。

关键词换得一年比一年快，背后的逻辑却很朴素，当一样东西能靠规模化量产把成本打下来，它就成不了长期护城河。

很多人说激光雷达现在是白菜价，这话半真半假。以禾赛为例，2026 年一季度产品综合 ASP 约 1441 元，入门补盲款已经摸到了 700 元档，和早年十数万元级的价格比确实是天差地别，但主雷达依然维持在千元以上，远没到 “随便装不心疼” 的地步。但核心趋势是确定的：硬件的成本曲线永远向下，不同方案的物理差距只会越缩越小。

就像智能手机刚出来那几年，所有人都在争论屏幕尺寸，3.5 寸还是 4 寸，电容屏还是电阻屏，吵得不可开交。没过几年屏幕就成了最标准化的配件，再也没人靠这个定胜负。真正拉开差距的，是系统生态，是开发者规模，是数据飞轮。

智驾行业现在就在经历一模一样的阶段。

今天头部玩家真正在卷的东西，说出来很多人可能没什么概念，核心是两件事。

一个是 VLA，也就是视觉 - 语言 - 动作模型。传统智驾系统本质是个 “反应黑盒”：输入画面，直接输出方向盘角度、油门刹车力度，中间没有可被人类理解的逻辑链路。做对了不知道为什么对，做错了也说不清错在哪。这也是智驾事故永远扯不清楚的根源 —— 系统没法自证决策逻辑，监管没法定责，保险没法定损，用户自然也难建立信任。

VLA 的核心差别，是在感知和动作之间加了一层可解释的语言推理。同样是遇慢车变道，传统系统直接执行转向，VLA 会先走完一整套判断：前车车速低于道路限速，左车道空闲，后方无快速来车，满足安全变道条件，再输出动作，还能把这段思考过程用自然语言还原出来。

看起来只是多了一句解释，对行业的价值却是根本性的。国内 L3 级准入规则里，本来就要求系统具备事件数据记录能力，VLA 的可解释性刚好踩中了监管的核心诉求。真出了事故，系统能给出完整决策链：减速是因为前车突发制动，同时右侧有行人闯入车道，后车跟车距离过近不适宜紧急变道。三方的信任成本，和黑盒时代完全不是一个量级。

另一个是世界模型。实车训练有个天然的天花板，极端复合场景太少了。跑一千万公里，都未必能碰到一次 “雨夜高速 + 路面散落货物 + 对向逆光 + 行人横穿” 的极端工况，但自动驾驶恰恰要搞定这些万分之一的意外。靠实车堆里程，效率太低，成本太高，也太危险。

世界模型干的就是无限生成训练场景的活。你可以理解成一个永不打烊的模拟考场，雨雾冰雪、逆光眩光、违规穿行、突发事故，所有边缘场景都能批量生成，还能自由排列组合，让模型在里面反复试错迭代，不用承担任何现实风险。

英国公司 Wayve 2023 年推出的 GAIA-1 就是典型代表，整套模型 90 亿参数，由 65 亿的世界模型主干和 26 亿的视频解码器组成，能靠文字描述生成连续的驾驶场景。而国内的华为、理想、小鹏也早都布局了自己的仿真训练平台，这早已不是某一家的独门技术。

当能推理的大脑，配上无限生成的训练场，一个自我迭代的技术飞轮才算真正转起来。这才是今天行业真正的无人区。

叙事泡沫下的分途赛跑

再看各家的真实布局，分歧早就不在传感器数量上了。

特斯拉还是最决绝的那个，坚持端到端神经网络的大方向，赌的是全球约 600 万辆搭载 FSD 硬件的车队，能用海量实车数据堆出算法优势，弥补纯视觉的物理感知短板。

当然这 600 万是硬件搭载总量，真正开通高阶智驾服务的车辆远不到半数，但这个基数依然是其他玩家短期内望尘莫及的壁垒。顺带一提，北美最新的 HW4.0 车型已经悄悄加回了毫米波雷达，所谓 “绝对纯视觉” 从来都不是僵化的教条，只是阶段性的技术取舍。

理想、小米、元戎启行等这批国内玩家，基本都押注 VLA 路线，只是解法各有不同：理想在视觉感知之外叠加了 3D 高斯建模提升空间精度，小米用 Q-Former 架构桥接视觉与语言模态，元戎启行则更侧重思维链推理的落地效果。大方向一致，细节上分高下。

华为走的是另一条路。对外明确表示不做 VLA，主推 WA 架构，也就是由世界模型直接输出驾驶动作，不插入独立的自然语言推理层。

很多人调侃华为 “嘴上不说身体诚实”，其实是混淆了概念，华为的车载大模型主要用在人机交互、语义指令理解上，并不介入驾驶决策的主链路。选择 WA 的核心逻辑，是认为语言推理会增加系统时延，而高阶驾驶需要极致的端到端响应速度，这是底层技术路线的取舍，谈不上谁抄谁。

至于 Waymo 这类传统 L4 玩家，依然坚持多传感器冗余 + 大规模实车测试的重资产路径，是最稳妥也最昂贵的打法。但他们同样在加码世界模型与仿真训练，没有谁真的抱着老办法一成不变。

没有绝对的对错，都是基于自身资源禀赋的技术赌注。比起几年前非黑即白的线上骂战，今天的行业分歧要专业得多，也 “无聊” 得多，毕竟模型架构、训练方式、后训练算法这些东西，远不如 “有没有激光雷达” 适合拿来吵架和做标题。

说回于涛这次辟谣。很多人解读成小鹏为纯视觉路线站台，当然有这层意思，但又不止于此。他这一下，其实戳破了整个行业裹了好几年的一层叙事泡沫。

泡沫的这一边，是自媒体反复翻炒的二元对立，是消费者盯着配置表数雷达个数的认知惯性；泡沫的另一边，是监管用性能指标替代硬件清单的务实，是头部厂商在大模型与仿真领域的无声竞速。两边的信息差，大到像活在两个平行世界。

所以，以后再刷到 “激光雷达 vs 纯视觉” 的标题，基本可以直接划走。要么是三四年前的旧文翻出来重发，要么是又有人在贩卖对立赚流量。

智驾这东西，胜负从来都不取决于装了几颗 “眼睛”。看的是有没有一颗能解释、会推理的大脑，有没有能无限生成极端场景的训练场，有没有能越转越快的迭代飞轮。

至于小鹏能不能在新赛道上跟上第一梯队，现在没人能给确定答案。

但至少这一次，于涛把很多人不肯醒的一个旧梦，给戳破了。那个靠传感器参数就能定高下的时代，早就翻篇了。

声明：本站原创文章文字版权归电科技所有，转载务必注明作者和出处；本站转载文章仅仅代表原作者观点，不代表电科技立场，图文版权归原作者所有。如有侵权，请联系我们删除。

分享到：

激光雷达不是护城河：智驾真正的胜负手，藏在两个你没听过的词里

被喂养的伪对立

智驾壁垒早已脱离硬件层

叙事泡沫下的分途赛跑

评论区（0）

电科技