2025年6月5日,TOPS第163期组会于通达馆A102线下举行。本次组会由22级博士范镓麟和23级博士孔爱静与大家交流讨论《面向自动驾驶测试的数据驱动交通流仿真》和《面向紧急危险场景的编队重组决策框架》的相关内容。课题组全体老师同学出席了本次组会。
汇报时刻
孔爱静同学从研究背景、研究内容、研究结果与下一步工作计划等四个方面对她的研究《面向紧急危险场景的编队重组决策框架》展开介绍。
在研究背景上,孔爱静提到自动驾驶车辆编队是智能网联车辆商业化的典型落地场景,现有自动驾驶编队面临紧急危险场景和复杂混合交通环境带来的安全挑战,提高混合交通环境下编队对紧急危险场景的应对能力是目前亟待解决的问题。
研究内容
孔爱静同学提出了面向紧急危险场景的编队重组框架,针对一维高风险场景和二维高风险场景搭建双层编队重组框架,通过自适应队形重组提升危险场景下编队行驶安全性。
研究内容
采用基于强化学习的编队协调决策,通过强化学习计算动态环境下编队动态分组结果,并基于计算出的动态分组信息,采用基于联盟博弈的车辆协同决策,通过博弈设计车辆协同合作策略,实现理想构型之间顺利切换。在收益函数的设计上,孔爱静同学根据车辆状态,设计安全、效率、跟车、队形变换性能指标。
研究内容
在研究结果上,通过两个仿真实验进行验证,消融实验证明所提出的博弈模型能有效提升行驶安全性、通行效率,以及所提出的队形相似度指标能显著提升编队重组效率。结果表明本方法在安全性和通行效率方面均优于传统编队决策方法。
研究内容
在下一步工作计划上,孔爱静同学将针对面向紧急危险场景的编队重组鲁棒安全控制的问题,采用基于对抗强化学习的鲁棒控制、基于神经网络CBF的安全修正以及基于MRM框架的安全动作对齐,最后对车辆底层进行控制。
同学们对孔爱静同学的研究针对求解实时性、具体的轨迹规划方法以及对于编队的紧急危险场景的定义等方面进行了讨论。孙剑老师针对编队问题的需求、编队行驶存在的前沿问题以及决策结果和编队效益的关系展开讨论。石老师针对研究背景二维自动驾驶编队以及是否需要接管等问题进行了交流。
接着,范镓麟同学从研究背景、研究内容、研究结果与讨论等多方面展开汇报。
在研究背景上,范镓麟同学提到虚拟仿真是自动驾驶测试和验证的核心手段之一,真实、多样的场景数据是自动驾驶虚拟仿真测试的关键基础,并介绍了基于轨迹回放、基于规则和基于学习的方法的仿真测试方法。现有方法难以兼顾高密度交通流下的动态交互性,驾驶行为难以靶向仿真。针对这些问题,采用基于多智能体强化学习框架建模交互动态性,利用多头交叉注意力策略模型处理高维多智能体观测,以及基于可学习的价值均衡估计引导策略优化,靶向仿真多样性交通流。
研究内容
在具体研究内容上,增加理性值函数与对抗值函数,基于可学习的价值均衡估计加权两种值函数的输出,重构策略对未来预期奖励的估计,针对每一时刻,分别预测智能体的理性、守规驾驶行为,以及非理性、对抗的驾驶行为的预期奖励,通过两种对应的优势函数进行折减,得到当前动作相对于基准状态价值的优劣,并根据交通流环境的动态特征,不断调节对于当前状态的价值估计。
研究内容
在结果上,与基线方法相比,采用固定EVE初始化的EGPO获得了更高的累积奖励,策略收敛后,能够在更短时间内完成仿真中驾驶任务,相对于基线方法显著提升仿真任务完成效率。并在典型场景上进行了仿真,接入了OnSite场景智能生成赛道,在B卷800多个场景上进行了测试,结果表明,在不同地图中,模型能够仿真多样、合理可预见的挑战性场景。
研究内容
老师和同学们针对范镓麟同学的研究,在强化学习函数的设计、理性和对抗的关系、生成场景的评价、价值均衡参数的估计、对于靶向生成场景问题的验证以及长尾场景的生成等方面的问题进行了讨论。