2023年4月6日,TOPS第123期组会于通达馆A436线下举行。本次组会邀请了香港理工大学工业与系统工程系的吴京达老师与我们分享《基于人类引导强化学习的自动驾驶车辆行为决策》的相关内容。另外,21级硕士生苏兴浩与大家交流讨论了《基于双判别器时序GAN的稀疏检测车辆轨迹ID匹配与缺失补全》的相关内容。课题组全体老师同学出席了本次组会。
组会现场
吴京达老师从传统强化学习难以整合先验知识以及容易陷入局部最优解为切入点,提出了一种基于人类指导的强化学习框架,希望通过人工演示来提高RL数据质量,同时通过干扰探索性学习过程避免RL局部最优。该框架以提高RL的数据采集效率、提高RL的数据利用率,解决人类指导的表现波动以及解决人类指导数据稀少为目标。吴老师针对每个目标,为我们介绍的具体实现手段,包括:使用人工诱导手段(介入和演示)、建立新的学习机制(为人类行为增加附加价值)、提出重要度计算机制(计算人类动作与RL自身动作之间的动作差值)以及增加人工数据优先级(增加人工引导数据被使用的概率)。最后,在一个模拟到真实的典型案例中实现并验证了基于人类引导的RL框架效果,该实验结果表明在未经训练的场景下,通过真实的人类指导,能够成功改进RL策略。
《基于人类引导强化学习的自动驾驶车辆行为决策》
吴老师的报告激发了大家浓厚的兴趣。在提问环节,22级硕士生刘佳琦就初始情况下的先验知识对RL模型收敛性的影响、人类引导的时序性以及HGRL框架对多任务情况的可移植性方面进行提问。秦国阳博士对HGRL与逆强化学习的关系方面进行提问。21级博士生张小卉就Safe RL的分类以及前景方面进行提问。
接下来,21级硕士生苏兴浩围绕《基于双判别器时序GAN的稀疏检测车辆轨迹ID匹配与缺失补全》展开了介绍。苏兴浩首先对轨迹缺失补全的应用场景进行了介绍,同时提出基于纹理合成的方法在兼顾轨迹补全与ID匹配方面存在缺陷。随后提出了一种基于双判别器的时序GAN网络方法,同时详细介绍了该方法的5个组成模块:编码器、解码器、Supervisor、生成器以及判别器。在模型的训练方面,苏兴浩详细介绍了模型的训练过程,包括:(1)训练编码器和解码器;(2)训练supervisor;(3)联合训练(包括编码器、解码器、生成器、判别器1&2)。最后,基于训练后的GAN网络模型完成对缺失轨迹的补全。至此,轨迹补全部分结束。针对ID匹配问题,苏兴浩基于GAN网络生成的补全轨迹,将ID匹配问题转换为一个指派问题,并使用modified Jonker-Volgenant算法求解该问题。最后,苏兴浩使用highD数据对模型的ID匹配精度进行验证。
《基于双判别器时序GAN的稀疏检测车辆轨迹ID匹配与缺失补全》
讨论环节,苏兴浩与各位老师、同学进行了深入的交流。22级硕士生刘佳琦就生成型模型的选取、GAN网络对序列生成问题的适应性以及模型效果检验中指标的选取等方面进行提问;20级博士生魏书樵就双判别器如何影响生成器的性能方面提问;22级博士生聂通就模型的输入输出以及loss选取、如何解决ID匹配问题以及训练样本的选取对模型过拟合的影响方面提问;梁浩阳博士就模型的适用范围(跟车/换道)方面提问;岳李圣飒老师就GAN网络与纹理合成方法的区别方面提问;杭鹏老师就模型输入的“轨迹动力学”方面提问;倪颖老师就方法中轨迹补全与ID匹配的逻辑关系以及模型针对多次换道场景的适用性方面提问;最后,孙剑老师总结强调了该课题在国内具有巨大的应用前景,同时就研究中baseline的选取以及创新点的提炼方面给出建议。
至此,第123期组会圆满结束!