2025年12月24日,TOPS第174期组会于通达馆A102线下举行。本次组会由25级硕士徐成凯和24级博士蒋溪彦进行《KDP-AD:基于专家路由的知识扩散型端到端自动驾驶研究》和《考虑动态认知特性的驾驶人接管行为建模》主题的学术报告分享。课题组全体老师同学出席了本次组会。

汇报时刻
徐成凯同学从研究背景、研究内容、实验分析和总结展望四个方面展开介绍。在研究背景方面,徐成凯同学指出随着自动驾驶技术迈入深水区,单纯依赖堆砌大数据、大模型与大算力的“题海战术”正面临边际效应递减的困局。现有的数据闭环模式虽然能处理常规场景,但在面对复杂长尾分布(如突发事故、极端天气)时,往往因缺乏泛化性而失效,无法从根本上解决模型“死记硬背”的问题。然而,现有端到端模型大多通过神经网络进行单纯的函数拟合,忽略了人类驾驶中将简单行为组合成复杂策略的机制,难以实现核心驾驶能力的有效复用与迁移。

研究背景
为此,徐成凯提出了一种基于专家路由的知识扩散型端到端自动驾驶模型KDP-AD,并设计了一种结合扩散生成策略与混合专家机制(MoE)的联合建模架构。
在研究内容方面,徐成凯同学综合考虑了驾驶动作的多峰性、时序一致性以及驾驶知识的可解释性。针对传统端到端模型黑盒化且难以解释的难题,提出了知识驱动的扩散策略网络:首先利用扩散模型将复杂的驾驶行为分布转化为去噪过程,覆盖驾驶决策的不确定性 ;其次引入混合专家(MoE)模块,通过Top-K门控网络根据当前驾驶场景(如合流、交叉口)动态激活特定的“知识单元”。在此基础上,算法引入了交叉信息熵损失函数来优化训练目标,鼓励不同专家在特定任务中实现“专业化”分工,同时结合稀疏激活机制,引导模型在不同场景间实现知识的高效迁移与组合,从而有效构建可复用的驾驶能力库。

研究内容
在实验结果方面,徐成凯同学构建了包含匝道并入、无信号交叉口及环岛通行等多类复杂交互场景的测试环境,并对比了强化学习(PPO-Lag)与模仿学习(IBC、RPID)等多种先进基线算法 。结果表明,所提出的KDP-AD模型在所有测试场景中均取得了最高的任务成功率与最低的碰撞率,综合表现显著优于现有算法。特别是在长时序的复杂交互过程中,模型展现出了优异的稳定性与泛化能力。可视化分析进一步证实,专家路由机制能够随场景演变稀疏地激活特定知识单元,不仅大幅提升了模型的有效容量,还赋予了端到端系统良好的可解释性。

研究结果
汇报结束后,课题组成员针对上述研究展开讨论。赵晓聪老师提出利用专用参数学习专门知识的思路,建议进一步推进驾驶知识和能力标签的精细化构造。石皓天老师指出应改进强化学习专家策略,从而提升数据采集与生成的质量。秦国阳老师建议进一步深入研究路由系统的时序调度机制。孙杰老师强调了泛化验证的重要性,指出模型效果需要在更多主流的公开数据集中进行测试。田野老师建议将模型应用于公开的打榜比赛,以拓展研究的实际应用价值。
接着蒋溪彦同学从研究背景、研究内容、实验结果、总结与展望四个方面对《考虑动态认知特性的驾驶人接管行为建模》研究展开介绍。

汇报时刻
研究背景部分蒋溪彦同学指出,随着L2级自动驾驶系统的普及,接管过程中的事故频发且后果严重,NHTSA数据显示相关事故数量逐年攀升。这主要归因于接管过程中驾驶人认知状态的剧烈波动(如应激反应、注意力转移),导致操作稳定性下降。然而,现有的轨迹预测方法大多基于“群体行为一致”或“个体行为时不变”的假设,难以刻画认知状态波动导致的动态行为分布,导致在系统退出(TOR)与主动安全触发(AEB)之间存在显著的“安全优化真空期”。如何准确辨识驾驶人潜在风险行为并提前触发主动安全系统,成为提升接管安全性的关键。

研究背景
为此,蒋溪彦提出了一种具备认知特性自由度的接管行为预测模型Cog-RL,并设计了结合部分可观测马尔可夫决策过程(POMDP)与强化学习的建模架构。
在研究内容方面,蒋溪彦同学将驾驶人接管行为视为动态认知状态下的有界理性决策过程。针对传统模型忽视内在不确定性的问题,构建了包含三大认知机制的驾驶人行为模型:引入感知噪声模拟人类视觉输入的偏差,嵌入迫近厌恶机制模拟对危险逼近的本能规避,以及加入运动延迟模块刻画感知-决策-执行的时间滞后 。在此基础上,利用粒子滤波算法从历史轨迹中动态推断认知状态参数(如感知噪声强度、风险厌恶系数等),并通过多轮蒙特卡洛采样预测未来行为产生的轨迹分布,实现了对驾驶人动态认知状态的实时辨识与行为预测。

研究内容
在实验结果方面,蒋溪彦同学在MetaDrive仿真平台构建了高速公路施工区等接管场景,并将Cog-RL模型与SOTA运动预测算法(BeTop)进行了对比。结果表明,Cog-RL在轨迹预测精度上优势明显,平均最小位移误差(minADE)降低至0.922,最终位移误差(minFDE)降低至2.430,且在准确预测的同时保持了更低的不确定性 。更重要的是,该模型能有效支持风险提前预警,在实验中实现了AEB触发时间平均提早30.7%,使得碰撞规避成功率提升了38.5%,有效填补了接管安全优化的“真空期”。

研究结果
未来蒋溪彦同学将进一步验证认知状态参数与驾驶人生理数据(如皮肤电、眼动)的一致性,并开展驾驶人在环实验,以提升模型在真实人机共驾环境中的可靠性与适用性 。

总结展望
汇报结束后,与会师生围绕研究内容展开了深入讨论。秦国阳老师针对模型的不确定性量化提出了建议,指出在目前基于固定认知参数分析行为分布不确定性的基础上,未来应进一步考虑认知参数本身的不确定性,以实现更完备的概率建模。孙杰老师则侧重于机理融合,建议将底层的认知机制更深层次地引入轨迹预测框架中,通过结合认知科学原理进行更深入的研究分析,从而提升模型的可解释性与预测深度。整场研讨在积极而富有浓厚的学术氛围中顺利结束。