2021年6月24日,TOPS课题组第94期组会在通达馆A436线上线下同时召开。本次组会由20级硕士生刘懿如与大家交流讨论了《基于逆强化学习的出行者出发时间选择行为机理研究》的相关内容。参会成员包括倪颖副教授、田野副教授及课题组全体同学。
汇报主题
刘懿如首先介绍了出发时间机理研究的现状,并讨论了目前研究存在的仿真模型不能再现个体行为、Logit模型无法考虑交互现象和时序性等问题,从而提出基于逆强化学习算法结合实验室虚拟实验对出发时间选择行为进行机理分析。
汇报环节
对于逆强化学习算法,刘懿如首先介绍了其在驾驶行为和出行行为领域的典型研究,由此引入对出发时间的建模研究。所用的实验室虚拟实验数据来源于课题组李宇迪设计的基于瓶颈模型的出发时间选择实验,主要涉及无管控措施、道路收费、道路奖励三个阶段,分别对三个阶段进行建模。首先明确了强化学习过程智能体、动作、状态、奖励函数、策略的定义,其次通过优化算法求解奖励函数的参数完成逆强化学习使得学习到实验者的出发时间选择行为,进行下一步机理解析。结果表明,此模型可以生成与实证数据相似的策略,也可用于粗略预测管控措施修改后的群体选择分布。
提问环节
在讨论环节,李宇迪对模型中的奖励函数设计提出了疑问与建议;张一豪建议可以深入研究尝试其他强化学习算法,从而达到更好的学习效果;秦国阳博士对研究的难点做了进一步的解释和补充。最后,田野副教授对汇报给予了肯定并总结了研究的背景意义和下一步的期望。
最近更新:2021年7月11日 13:03:24