特殊时期李想再谈智驾:VLA才是未来,行业正在黎明前的黑暗
2024 年底,理想汽车 CEO 李想在理想 AI Talk 第一季上表示,基座模型到一定时刻,一定会变成 VLA(视觉语言行动模型)。2024 年 10 月,理想汽车才开始推送端到端 +VLM(视觉语言模型)智驾方案,年底就表示要押注 VLA,可能会给用户否定原方案的感觉。
2025 年 5 月 7 日,理想 AI Talk 第二季上,李想再次强调,端到端 +VLM 的能力不足,现阶段 VLA 是最强架构,只有 VLA 的能力可以接近人类,甚至超越人类。这一次,李想详细讲解了 VLM 的不足,以及理想汽车是如何训练 VLA 的。

(图源:理想)
李想举例,VLM 对于位置的判断非常糟糕,如果是两三个 ETC 出入口,还能作出准确判断,但若遇到了京承高速这种十几个 ETC 的高速出入口,VLM 模型就不知道怎么判断了,而且问题出在模型架构,即便喂更多语料给 VLM 都无法解决这个问题。
VLA 的训练分为 VL(视觉语言)基座预训练、辅助驾驶后训练、辅助驾驶强化学习三个部分。其中预训练相当于人类通过视觉数据、语言数据、视觉语言联合数据学习和认知物理世界、交通知识,训练出 VL 模型基座。

(图源:直播截图)
后训练则相当于人类在驾校学习开车,通过 Action(动作)数据对周围环境和自车驾驶行为编码,将 VL 模型基座训练成 VLA 司机大模型。同时,VLA 采用短思维链的特性,搭配 Diffusion 扩散模型对于他车轨迹和环境的预测,令其实时性更强,在复杂交通环境下依然具备较强的通行能力。
强化训练则相当于我们日常开车,可以通过 RLHF(基于人类反馈的强化学习),训练大模型对于交通规则的理解能力,并使 VLA 更符合用户的驾驶习惯。
最终产品会以司机 Agent(智能体)的形式呈现,可以理解人类自然语意,用户怎么指挥,车就怎么开。理想公布的测试视频中,司机 Agent 可以根据语音指令,在不退出 NOA 的情况下切换路线,或者根据用户指令在高速出入口走人工通道。

VLA 并未摆脱端到端智驾方案的黑盒问题,为此理想在 2024 年底组建了超过 1000 人的超级对齐团队,并构建了仿真世界模型,可在虚拟世界中验证司机 Agent 的专业能力、职业能力和构建信任的能力。原本依靠人类司机验证,一万公里成本高达 17 万元到 18 万元,仿真世界中 1 万公里验证成本仅 4000 多元。
理想汽车车表示,由于英伟达 Orin-X 芯片无法直接运行语言模型,端到端 +VLM 对于部分企业而言仍是不小的挑战。理想拥有编译团队,自研了底层推理引擎,使芯片可通过 INT4(4 比特整型)量化的方式运行 VLM,理想在智驾技术领域的原创性,高于理想汽车核心竞争力之一的增程技术。
不过理想汽车表示,VLA 的实现不是突变过程,而是从规则算法到端到端大模型及端到端 +VLM,再到 VLA 的进化过程,唯有夯实基础,才能实现 VLA。这也解释了为何理想会在推送端到端 +VLM 方案后,又押注 VLA,基于规则算法和端到端 +VLM 的技术积累,理想才跨步到了 VLA 阶段。
对于近期辅助驾驶车型接连出现事故,消费者失去信任,甚至有网友呼吁叫停辅助驾驶的情况,理想则认为更像是黎明前的黑暗,技术不会停止向前发展。
的确,辅助驾驶车型出现事故,只会让车企在研究技术时更加谨慎,增加验证频次,不会导致车企因噎废食,技术领域的竞争将更加激烈。一直处于国内辅助驾驶技术第一梯队的理想,也许能够通过 VLA 方案,为行业带来新的思路与方向。