2023年6月9日,TOPS课题组第127期组会在通达馆A436室线下线上同时进行。本次组会由2022级硕士生刘佳琦与大家交流讨论了《基于强化学习和Transformer的无信号交叉口自动驾驶运动决策》的相关内容。课题组的全体老师和同学出席了本次组会。
汇报时刻
刘佳琦首先介绍了研究背景,自动驾驶汽车在无信号交叉口等复杂动态环境下的交互与决策存在很多困难,目前用于无信号交叉口自动驾驶协同决策的方法主要包括基于博弈模型、优化模型、学习模型三种类别,均存在优点与不足。因此,需要综合不同方法取长补短,建立考虑注意力和层次博弈先验的MARL方法,为AV协同学习算法加入先验知识,提升CAV学习交互的效率和安全表现。
以十字形四向单车道为研究场景,以MADDPG(Multi-Agent Deep Deterministic Policy Gradient)和加入注意力机制的Attention-MADDPG为基线,提出了基于注意力机制选定交互对象、层次博弈调整通行优先级、安全监督员模型检查并消解冲突的MA-GA-DDPG模型。通过在纯CAV环境、CAV-HV (同质)混驾、CAV-HV (异质)混驾三种环境中的实验,发现MA-GA-DDPG模型在不同复杂度场景中,安全、效率、舒适性上均表现较好。
汇报内容
接着,针对现有方法针对单一场景、单一任务训练,泛化性差的问题,刘佳琦提出了基于GPT的自动驾驶多任务决策,将自动驾驶决策任务建模为序列建模与预测问题,提出了基于强化学习专家示范的GPT训练管道,基于GPT-2训练了用于无信号交叉口多任务决策的GPT模型MTD-GPT。实验结果表明,MTD-GPT在多个子任务上性能优于单任务RL专家模型。
汇报内容
在交流讨论环节,2022级博士生聂通对注意力的计算维度、安全监督员带来的模型收益、自回归的预测步长等问题进行了提问,2022级博士生梅月雯对训练集规模等问题进行了提问,2021级博士生张小卉对注意力的作用、如何证明冲突消解的方式最优、模型泛化性、能否加入强化学习人类反馈等问题进行了提问。
秦国阳老师从GPT的预训练、能否在模型中加入Prompt等方面提出了建议。杭鹏老师提出可以借助实验平台实现算法落地、进行实车测试。岳李圣飒老师对论文的创新点和baseline的选择进行了提问。田野老师提出需要凝练出大家比较关注的题眼,例如数据隐私问题、信号暴露、人机混合增强等。倪颖老师提出模型结果能否与人类驾驶员的行为比较,并对模型的安全效率计算结果进行了提问。孙剑老师从人机混合增强智能交互、研究问题的关键性、车辆间的协同、HV预测的准确性等角度提出了建议。
至此,本次组会圆满结束。