北京2025年10月28日 /美通社/ -- 近日,在ICCV 2025自动驾驶国际挑战赛(Autonomous Grand Challenge 2025)中,浪潮信息AI团队凭借其提出的创新框架"SimpleVSF",以53.06的EPDMS综合得分,在端到端自动驾驶赛道中夺得冠军。该项目创新构建以鸟瞰视图感知轨迹预测为核心、视觉-语言多模态大模型辅助判断的融合方案,发挥大模型泛化能力,突破现有端到端自动驾驶模型在复杂交通场景"难以自主判断"的局限,实现性能领先,为高动态、高交互交通环境下的智能决策提供了全新思路。 ICCV2025自动驾驶挑战赛是自动驾驶与具身智能领域极具影响力的国际赛事。本届比赛共设三大赛道,此次浪潮信息AI团队所登顶的端到端自动驾驶赛道(NAVSIM v2 End-to-End Driving Challenge)是ICCV2025最受关注的赛道之一。比赛以NAVSIM v2数据驱动仿真框架作为评估平台,主要考验纯视觉环视相机输入的轨迹预测与行为规划能力,要求在保证行车安全性的前提下,优化车辆的前进效率、避障能力、可行驶区域、驾驶舒适度等九项关键指标,避免模型只在某一单项上表现突出的缺陷。该赛道吸引了来自中国、韩国、瑞典的多家头部智驾企业及知名高校与研究机构。 端到端自动驾驶:挑战基于语义理解的类人决策 当前,端到端自动驾驶(End-to-End Autonomous Driving)通过端到端优化有效减少了传统模块化方法中各组件间的误差累积与信息损失,被广泛认为是实现智能驾驶的重要发展方向。然而,端到端自动驾驶系统在复杂现实路况中的决策能力仍不理想,主要问题在于:现有方法虽能准确识别车辆、车道等实体元素,却难以理解如礼让行人、拥堵跟车等高层次语义与场景常识。因此,在复杂长尾场景下,系统往往仅能依据数据关联做出反应,而无法真正解读交通参与者意图或交互逻辑,从而出现次优决策,限制了其在真实开放道路中的可靠性与泛化能力。 在此基础上,如何将深层语义认知能力融入轨迹规划流程,成为了更深层次的技术挑战。首先,将视觉语言模型输出的抽象认知指令,转化为驱动控制系统所需的具象数值化特征,本身就是一个复杂的表示学习问题。其次,在轨迹选择阶段,如何平衡数据驱动的量化评分与知识驱动的语义判断,确保所选轨迹不仅在数学上最优,也在语义和场景常识上合理安全,成为感知与决策间的关键障碍。 本届赛题旨在提升端到端自动驾驶模型在复杂动态环境中高效可靠决策的能力。竞赛分为两阶段:第一阶段采用真实场景数据,第二阶段则基于真实场景通过Gaussian Splatting技术生成合成场景,以测试模型对"非真实但物理合理"场景的泛化能力;同时引入"反应式背景交通参与者",即周围车辆和行人不再是预先设定、机械运动的,而是会根据自车的实时行为做出动态、仿真的反应,这要求模型具备更深层次的交互式预测与意图理解能力,而非简单的轨迹外推。 EPDMS 53.06分,SimpleVSF框架让自动驾驶模型"懂场景、会思考" 在端到端自动驾驶赛道中,浪潮信息AI团队所提出的SimpleVSF(Simple VLM-Scoring Fusion)框架,有效弥合了传统轨迹规划与视觉语言模型语义理解之间的关键鸿沟,推动自动驾驶决策从"纯几何式"向"认知式"转变。该框架通过引入VLM(Vision-Language Model)与双重融合决策机制,赋予系统深层的场景理解与推理能力,从根本上解决了现有方案在复杂交通语义认知上的不足,成为应对NAVSIM v2等高难度挑战、实现高鲁棒性驾驶的关键。其主要技术创新包括:
通过将前视图像与车辆状态输入VLM模型,生成"加速、右转"等认知指令,再经编码器转换为数值特征,与感知特征融合后输入评分网络。该机制使轨迹评估不再局限于几何信息,更融入了对交通意图与场景语义的理解,从而显著提升了系统在复杂与长尾场景下的决策质量与鲁棒性。实验表明,此VLM增强打分机制为单一模型带来2%的性能提升,在融合决策中提升幅度达到6%。
权重融合器作为定量聚合的核心,采用固定权重与动态权重相结合的策略,对多个评分器给出的分数进行精准的加权融合,确保最终轨迹在各项量化指标上达到最优。 基于VLM的选择融合器则将各评分器选出的最优轨迹进行视觉渲染,并交由VLM进行最终评判,利用其高层次语义理解能力,选择出最符合上下文场景、最安全合理的轨迹路径。 融合机制的引入使决策效果显著提升,融合后的结果相比单一模型性能提升达10%。
该框架采用扩散模型生成高质量的多样化候选轨迹,奠定规划基础;运用ViT-L等先进视觉骨干网络进行高效、鲁棒的环境特征提取,为下游任务提供可靠表征;并引入Qwen2.5VL系列视觉语言模型,利用其在场景理解与指令生成方面的语义优势,确保系统整体性能基础的坚实与领先。 基于VLM自动驾驶决策系统的算法创新,"SimpleVSF"算法框架成功登顶端到端自动驾驶赛道(NAVSIM v2 End-to-End Driving Challenge)榜单,以53.06的EPDMS综合得分创造了本赛道的最高成绩,为探索更高级别的端到端自动驾驶技术提供了有力的支撑与经验。 浪潮信息AI团队此次夺冠,是继22、23年登顶nuScenes 3D目标检测纯视觉及多模态榜单,24年在CVPR自动驾驶国际挑战赛"Occupancy & Flow"赛道夺冠后的又一重要成果。未来,浪潮信息AI团队将践行多角度切入,发挥算法、算力融合的AI全栈优化能力,推动自动驾驶领域的技术创新发展。 * 备注:文内所涉术语解释如下 扩展预测性驾驶模型评分(The Extended Predictive Driver Model Score,EPDMS):该指标综合考量轨迹预测与真实轨迹的贴合度、碰撞风险、可行驶区域规范性、车道居中性、通行效率及舒适性等多个维度,全面反映自动驾驶系统的综合表现; 高斯泼溅(Gaussian Splatting):一种新兴的三维场景表示与渲染技术; 鸟瞰视图(Bird's Eye View,BEV):是指将特征信息转化至鸟瞰视角; 自车(ego-car):在自动驾驶领域指代当前车辆自身,通常作为运动主体参与轨迹规划、环境感知等任务; 鲁棒(Robust):是指系统在一定的参数摄动下,维持其它某些性能的特性。
|

哪有什么岁月静好,不过是有人替你负重前行。 在贵州,每一帧安居乐业的幸福画...[详细]

Powered by Discuz! X3.2
© 2001-2013 Comsenz Inc. UED:goguan.cn