第181期组会：罗曼《人机混驾环境下基于交互偏好辩识的主动交互策略》黎瑞《基于博弈论的自动驾驶最优社会性研究》-TOPS

第181期组会：罗曼《人机混驾环境下基于交互偏好辩识的主动交互策略》黎瑞《基于博弈论的自动驾驶最优社会性研究》

撰稿彭柏瑶 2026年05月02日 09:24:57 阅读()

2026年4月28日，TOPS第181期组会于通达馆A211线下举行。本次组会由23级硕士罗曼、23级硕士黎瑞进行《人机混驾环境下基于交互偏好辩识的主动交互策略》、《基于博弈论的自动驾驶最优社会性研究》主题的学术报告分享。课题组全体老师同学出席了本次组会。

汇报时刻

会议首先由23级硕士罗曼作报告。她从研究背景、基于交互偏好辨识的自动驾驶主动交互策略框架、面向eHMI交互的人在环数据采集与行为建模、融合人类反馈响应的主动交互策略优化与验证和结论与展望五个方面，系统介绍了自己的研究进展。

在研究背景方面，罗曼同学指出，城市交通正在进入人机混驾时代，现实道路中存在大量困难、模糊的交互场景，AV与HV双方难以准确解读对方驾驶意图。AV对HV意图理解不足时，往往只能采取较为保守的驾驶行为，最终造成自身路权受损、通行效率下降等问题。因此，提升AV对HV行为的理解能力和自身意图表达能力，是增强混驾交互能力的关键。

研究背景

进一步地，罗曼同学从社会性与eHMI两个角度梳理了已有研究。SVO、同理心、IPV等社会心理学工具能够刻画驾驶人社会偏好，为解释和再现人类驾驶行为提供依据；外部人机交互界面eHMI则可通过灯光、符号、文字等方式显式表达AV的状态、感知、意图和建议。基于此，研究提出一种“识别—表达—主动引导”的增强交互策略。

研究背景

在主动交互策略框架构建方面，罗曼同学以无保护左转场景为对象，基于SinD自然驾驶数据提取左转—直行交互事件，并利用IPV方法识别交互车辆的社会性偏好。研究进一步将距离冲突点时间差、速度差、协作加速度和交互偏好等特征输入LightGBM意图预测模型，输出对向来车意图概率，并将该概率作为先验知识输入贝叶斯博弈决策模型，求解AV的让行或先行策略。

研究内容

在决策与意图表达方面，研究通过安全收益与效率收益共同构建奖励函数，并采用最大似然估计求解贝叶斯博弈模型参数。在此基础上，罗曼同学设计了状态触发式eHMI显示策略：当车辆进入交互状态且双方距离满足条件时，AV根据决策输出显示“让行”或“先行”意图信息，实现决策结果与外部表达的一致。

研究内容

为验证eHMI作用下人类驾驶员的真实响应，罗曼同学搭建了人在环驾驶模拟实验平台。实验以前述主动交互策略为输入，设置不同场景条件和eHMI显示条件，采集交互双方轨迹、驾驶人操纵数据与响应结果。实验共招募15位被试，采集150组交互数据，并从意图确认时间、速度演化曲线和HV先行比例等指标分析人类驾驶员面向eHMI的行为特征。

实验设计

进一步地，罗曼同学基于实验数据构建了考虑eHMI响应机制的人类驾驶员模型。该部分采用对抗逆强化学习AIRL方法，将人类驾驶员在eHMI交互场景下的“状态—动作”轨迹作为专家数据，建立能够生成逼真响应行为的决策策略。结果表明，AIRL策略在轨迹演化和特征分布上均更接近人类真实驾驶表现。

实验结果

在主动交互策略优化方面，罗曼同学将人类驾驶员模型接入Highway-env仿真环境，基于混合强化学习构建闭环主动交互策略。其中，上层策略控制eHMI与语义决策，下层策略控制车辆转向和加速度。仿真结果表明，HPPO策略在交互安全和通行效率方面均优于对比策略。未来，研究将进一步拓展至多车、混合交通流和弱势交通参与者场景，并推动仿真成果向实车实验转化。

汇报结束后，与会师生围绕研究内容展开了深入讨论。多位同学就eHMI策略制定及人类驾驶员对eHMI的感知与响应机制提出问题。赵晓聪博士指出，应进一步强化轨迹层面的交互模型与意图预测之间的联系，明确eHMI对人类驾驶员行为的影响。梁浩阳博士建议谨慎使用模拟器数据构建背景车模型，可考虑在真实数据基础上开展模型微调。秦国阳博士强调，应更加清晰地回答核心研究问题，并形成充分的论证闭环。

孙剑老师指出，当前研究仍需加强前后章节之间的逻辑衔接，补充集群模拟器的人在环闭环验证。倪颖老师建议进一步凝练研究创新点，突出人类反馈响应模型的价值。孙杰老师强调，应明确理解HV意图在决策优化中的具体作用，避免意图预测与后续方法脱节。杭鹏老师建议拓展多样场景，结合CAVE平台补充实验，提升研究结论的鲁棒性和推广性。

汇报时刻

接着，23级硕士黎瑞围绕研究背景、基于博弈论的社会性标定、演化博弈论建模、实验数据分析、多车循环对抗实验和研究总结几个部分展开《基于博弈论的自动驾驶最优社会性研究》主题报告。

在研究背景方面，黎瑞同学指出，随着激光雷达、人工智能、物联网等技术发展以及政策法规逐步完善，自动驾驶汽车与人类驾驶车辆在道路网络中的长期共存已成为必然。然而现实测试中，AV常表现出过于保守的驾驶策略，既影响通行效率，也影响人类驾驶员对自动驾驶行为的理解和接受。因此，研究重点聚焦于长期混驾环境下自动驾驶汽车的最优社会性推导。

研究背景

在社会性标定方面，黎瑞同学以无保护左转强交互场景为对象，将交互收益函数分解为行驶进程、车道偏移和消解冲突等个体收益与群体收益项，并引入社会性权重，构建兼顾个体收益与群体收益的交互行为模型。为使抽象参数具有可解释性，研究进一步将社会倾向映射为社会性角度，其中正值表示偏合作，负值表示偏竞争，接近零则表示偏自利。

研究内容

进一步地，基于社会性标定结果建立演化博弈论模型，将左转车与直行车作为博弈参与者，将HV与AV作为可选择策略，并将合作型、竞争型等驾驶风格纳入异质性分析框架。研究通过Jacobian矩阵稳定性条件判断稳定均衡解，并引入费米更新机制描述策略在长期群体交互中的模仿、传播与演化过程。

研究内容

实验方面，研究基于Argoverse2交叉口数据提取交互事件，并通过轨迹标定得到不同社会倾向AV的权重参数。结果表明，自动驾驶汽车面对不同HV时能够取得优势的社会性区间并不相同：与合作型HV交互时，偏竞争的AV更占优；与竞争型HV交互时，适度自利的AV更具长期优势。进一步的费米仿真实验显示，动态切换社会性可使AV最终占优，而固定单一社会性策略则可能导致AV在长期演化中被淘汰。

多车循环对抗实验

黎瑞同学进一步强调，自动驾驶社会性不是“越合作越好”或“越竞争越好”的单一变量。过度合作的AV策略容易在长期演化中被竞争型HV利用，过度竞争的策略又可能降低稳定性与交互协调性。相比之下，能够根据交互对象偏好动态调整的社会性策略，更有可能在复杂混驾环境中保持长期优势。

在多车循环对抗实验方面，黎瑞同学借鉴重复囚徒困境和合作进化思想，构建了多车循环对抗与混驾仿真验证框架。研究选取第二届OnSite比赛前十名优秀算法，在十个无保护左转交叉口场景中进行双向交互仿真，并采用OnSite评价体系从效率、安全、舒适度和交通协调等维度计算综合得分，以分析不同算法的社会性倾向及其长期演化表现。

实验结果

仿真结果显示，在947次算法演化过程中，2号算法逐渐成为主导策略，8号算法形成阶段性竞争者，5号算法保持低比例生存，其余算法逐步被淘汰。进一步分析发现，长期占优算法并非社会性最高的算法，而是更接近适度自利的社会性倾向；同一算法在左转和直行角色下的社会性表现也并不完全一致，说明社会性具有明显的角色依赖性与场景依赖性。

最后，黎瑞同学总结了研究成果，该研究提出了基于双群体演化博弈的自动驾驶最优社会性分析框架，构建了多车循环对抗与混驾仿真验证框架，并分析了不同自动驾驶算法的内在特征与外在表现之间的关系。未来，研究将进一步用分布方式刻画真实世界中差异更大的驾驶群体，将场景拓展至汇入汇出、对向冲突等多类交互任务，并考虑将LLM或强化学习算法加入多车竞技场。

汇报结束后，与会师生围绕研究内容展开了深入讨论。秦国阳博士指出，应从指标有效性的角度检验评分结果与实际交互表现之间的对应关系，避免评价体系存在逻辑漏洞。赵晓聪博士建议关注结果波动对算法占优判断的影响，补充不同方差条件下的敏感性分析。

孙剑老师强调，应进一步区分算法得分、能力表现与最终生存结果之间的关系，说明评分机制与淘汰机制的边界。倪颖老师建议凝练研究对未来自动驾驶社会性策略设计的启示，并思考动态收益优化的实现路径。孙杰老师建议进一步解释演化博弈中“淘汰”的含义、后果与生成机制，并明确多车循环赛评价算法优劣的标准。杭鹏老师指出，应明确在何种社会性条件下特定算法能够脱颖而出，并解释规则型算法与社会性因素之间的作用关系。

上篇：第180期组会：刘林坤《基于信号传递博弈的自动驾驶车EHMI作用机制研究》肖灵坤《考虑隐私保护的自动驾驶共享场景库查重问题研究》

下篇：祝贺TOPS课题组2023级硕士研究生顺利通过学位论文答辩

友情链接 TRB 交通运输部同济大学交通运输工程学院

LOGO

电话：021-69583650 管理员邮箱：2015qgy@tongji.edu.cn
地址：上海市曹安公路4800号同济大学交通运输工程学院A440 邮编：201804

TOPS课题组页面浏览465,829次/访客70,123人次