2026年3月26日,TOPS第178期组会于通达馆A102线下举行。本次组会由22级博士梅月雯进行以《能力可知的自动驾驶学习闭环》为主题的学术报告分享。课题组全体老师同学出席了本次组会。

汇报时刻
在研究背景方面,梅月雯同学指出,尽管当前自动驾驶技术在常规场景中已取得显著进展,但在安全关键的长尾场景下仍面临鲁棒性不足与安全性挑战。由于高风险场景稀缺,单纯依赖自然驾驶数据难以支撑模型有效训练。为应对这一问题,行业陷入了依赖超大算力和海量数据的暴力扩张模式,但受限于开环训练效率,该模式逐渐遭遇边际收益递减,亟需构建高效的闭环学习框架。
进一步地,现有闭环对抗训练方法仍存在不足:对抗场景缺乏可解性约束,易产生无效样本;场景采样难以动态匹配策略能力;同时缺乏从场景价值到模型能力提升的有效转化机制,限制了学习闭环的形成。

研究背景
基于此,梅月雯同学提出了构建能力可知的自动驾驶学习闭环框架的研究思路,旨在在保证对抗性的同时引入可解性约束,并通过能力建模与动态采样机制,实现对自动驾驶策略的精准训练与持续进化,从而推动训练过程由“盲目刷题”到“因材施教”,再到“以题促学”的转变,实现高价值场景和算法能力进化的真正闭环。

技术路线
在研究内容方面,梅月雯同学围绕学习闭环构建提出了系统化方法框架。首先,在对抗场景生成方面,引入可解性约束机制,通过专家验证与直接偏好优化(DPO)方法,对生成场景进行筛选与引导,使模型在保持对抗性的同时,避免产生不可解的极端场景,从而保证训练信号的有效性。

研究内容
其次,在算法能力建模方面,提出基于行为指纹的能力表征方法,通过提取策略在不同状态下的行为特征,构建多模态能力预测模型,实现对不同自动驾驶算法在具体场景中的成功概率预测,从而建立算法能力与场景特征之间的映射关系。

研究内容
在此基础上,梅月雯同学进一步提出能力可知的学习闭环框架。基于上述可解场景生成和能力动态预测,构建学习闭环。通过对模型能力的动态评估引导场景采样与训练过程,使训练场景难度与算法能力自适应匹配,并结合场景库的持续扩充与更新以及对抗强度的逐步提升,形成“场景生成—策略训练—能力反馈”的闭环迭代机制,将对抗场景的价值转化为算法能力的提升,实现自动驾驶策略性能的持续优化。

研究内容
在实验分析方面,梅月雯同学基于MetaDrive闭环仿真平台,结合Waymo Open Motion Dataset重构真实交通场景,以TD3作为自动驾驶决策算法,以DenseTNT作为场景生成基准方法,对所提出的学习闭环框架进行了系统评估。
结果表明,在场景生成方面,引入可解性约束后,生成场景在保持危险性与多样性的同时,有效减少了极端不可解场景的比例。
在能力建模方面,行为指纹基本能准确预测算法平均能力,有效区分不同策略并捕捉到训练过程中的演化过程,在未知策略与未知场景上具有较高预测准确性。
在闭环学习中,场景生成算法剔除不可解的超纲错题,进一步降低了算法碰撞率,提升了任务完成率;因材施教的动态课程采样,具有更快的学习速度,避免了在简单场景上的算力浪费;整体训练效果上,可解生成与能力预测采样相辅相成实现场景难度与算法能力动态对齐的学习闭环。

实验分析
未来,梅月雯同学将进一步围绕训练闭环与学习闭环展开研究,解决交互性缺乏、协变量偏移、因果混淆等问题,构建自学习自进化能力,实现真正的自动驾驶学习闭环。
汇报结束后,与会师生围绕研究内容展开了深入讨论。田野老师建议进一步提升实验难度以增强说服力,并探索提升信息密度等加速训练方法的应用,同时关注可解场景筛选与AV、HV主责场景之间的潜在关联。杭鹏老师提出可进一步加强算法能力与场景映射关系的刻画与解释,推动研究向三维及多模态方向拓展。孙剑老师强调研究需面向企业实际需求,聚焦核心问题,在实验验证中突出方法在不同算法与能力水平下的通用性与解耦性。石皓天老师则建议进一步凝练核心科学问题,理清各模块之间的逻辑关系,明确框架所解决的核心问题。整场研讨在积极而浓厚的学术氛围中顺利结束。