【系列专栏 | 总而研之02】从“会”去哪里到“要”去哪里：基于预期最优决策推断的非机动车行为预测-TOPS

【系列专栏 | 总而研之02】从“会”去哪里到“要”去哪里：基于预期最优决策推断的非机动车行为预测

撰稿李建强 2024年12月01日 12:25:34 阅读()

编者按：非机动车 “随心所欲 ”的行为特征为自动驾驶带来了严峻挑战。本期 “总而研之 ”系列专栏随李建强从 “会 ”去哪里到 “要 ”去哪里的研究视角出发，探讨基于预期最优决策推断的行为预测方法。通过深入剖析骑行者的个性化决策逻辑，尝试理解非机动车的个体决策动机，从而实现更精准的轨迹预测。

本期介绍的研究课题来自于TOPS交通流理论与深度仿真小组，课题名称为《机非混行环境下非机动车轨迹预测》，课题来源于国家自然科学基金(52125208): “交通系统建模与优化”以及国家自然科学基金(52072262): “机非混行环境非机动车交互行为建模与深度仿真”。

01 机非交互困境：骑行者“随心所欲”给行为预测带来的难题

Motor and Non-motor Interaction Dilemma: Difficulty of Predicting Behavior caused by Cyclists' "Doing Whatever They Want"

如果将城市道路比作一张棋盘，机动车就像按部就班、规则明确的“棋子”，而非机动车则更像自由行动的“自由子”，时而遵守规则，时而“越界”行驶，甚至随时改变方向。这种灵活性和不确定性使得自动驾驶车辆在开放道路环境中应对非机动车成为一项前所未有的挑战。

非机动车的“随心所欲”行为，源于骑行者复杂的决策过程和非机动车灵活的运动特性。骑行者的决策高度个性化，受实时环境、风险感知等多种因素影响，即便在相似情境下也会表现出不同的行为。此外，在无车道约束的环境中，非机动车拥有极高的自由度，能够随时调整路径和速度，这种灵活性显著增加了行为预测的难度。

具体而言，如图1所示，非机动车行为预测面临以下三大难题：

1. 多样化轨迹：无限空间粒度下的学习挑战

如图1 (A) 所示，非机动车在无车道约束的环境中，轨迹变化极为多样，骑行者的路径随时可能发生调整。由于缺乏固定规则，这种高度自由的行为将轨迹细分为几乎无限的可能性，传统基于时序轨迹模式学习的预测模型面临维度爆炸的困境。

2. 异质骑行者：决策特征的差异化

如图1 (B) 所示，每位骑行者展现出不同的决策风格，有人谨慎守规，有人大胆冒险。这种差异源于个人的风险偏好、对规则的理解以及实时环境的影响。传统模型试图用统一的标准描述所有骑行者，但往往难以适应这些具有高度个性化的决策特征。

3. 群体效应：集体行为下的暗自竞争与默契互动

如图1 (C) 所示，多个骑行者同时出现时，场景如同一场复杂的集体舞。他们可能相互竞争、跟随、避让，甚至通过微妙动作达成默契，协同采取某些冒险行为。传统方法难以捕捉这种群体互动的“潜规则”，导致预测模型在应对动态协同行为时表现力不足。

图1 非机动车轨迹预测的三大难题

为化解上述困境，自动驾驶车辆多采用“谨慎驾驶”策略，与非机动车保持较大安全距离，以降低风险，但这也显著牺牲了交通效率。要突破技术瓶颈，需深入理解骑行者行为，将其行为不确定性转化为可观测变量，才能实现安全与效率的平衡。

破解之道: 关注每个个体“要去哪里”，而不是“会去哪里”

本研究提出了一种新的解决思路——与其纠结于预测骑行者“会”去哪里，不如更关注他们“要”去哪里。通过分析实时交通态势，深入挖掘每个骑行者的决策策略，我们试图解答“他们接下来想做什么”这一关键问题。与传统依赖历史轨迹模式的预测方法不同，这种基于预期最优决策推断的非机动车行为预测方法更能有效地解释并预测骑行者在复杂交通环境中的交互行为和预期轨迹。

在本期中，我们将重点介绍三个研究内容: (1) 基于轨迹“生成-选择”的非机动车行为预测框架构建; (2) 决策特征自适应更新方法设计; 以及 (3) 群体效应下的个体交互策略学习。接下来，让我们逐一介绍这三个研究内容的核心方法。

02 表征全样本预期行为：基于轨迹“生成-选择”的非机动车行为预测框架

Characterize Expected Behavior: Non-motor Vehicle Behavior Prediction Framework based on "Generation-Selection"

A. 建模框架

在机非混行的交通环境中，非机动车的轨迹预测面临巨大挑战，主要源于其行为的高度多样性和随机性，传统模型难以捕捉骑行者的决策与行为，尤其在复杂交互场景下，意图决策与轨迹执行之间的紧密耦合进一步增加了预测难度。为此，本研究提出了一种基于轨迹“生成-选择”机制的方法。如图2所示，该框架结合深度学习和领域知识，通过生成候选轨迹并筛选出最符合骑行者决策意图的轨迹，主要分为轨迹生成和轨迹选择两个步骤。

图2 轨迹“生成-选择”的预测框架

B. 轨迹生成：多样候选轨迹的生成

在轨迹生成阶段，我们利用卷积神经网络(CNN)对历史骑行数据进行特征提取，学习骑行者在已知起点和终点条件下的运动轨迹特征。结合运动学规律和实际场景限制，确定非机动车可能到达的终点集合，确保生成的候选轨迹既合理又多样。通过CNN与场景特征结合，生成符合实际环境的候选轨迹，为轨迹选择提供多样化基础。

C. 轨迹选择：骑行者决策行为的分析

轨迹选择阶段通过效用函数分析骑行者的决策特征，选出最优轨迹。效用函数综合考虑骑行者在效率追求与风险规避之间的平衡，并考虑与周围交通环境的互动因素，如其他车辆的运动等。通过这一方法，模型能够从候选轨迹集中选择最符合骑行者真实意图的轨迹。

D. 结果分析

本研究选取了上海市仙霞路与剑河路交叉口的轨迹数据作为实验对象，并设置预测时长为2.88秒 (即24个时间步长)。实验结果表明，基于轨迹“生成-选择”双层模型的预测误差显著低于现有的基于历史轨迹演化的模型，如图3所示，表明了该预测框架的优势。此外，图4展示了各阶段的可视化结果：该轨迹预测框架不仅能够定量分析所有可行的行为，还能揭示潜在的未来行为模式，从而提升了模型的可解释性和可推广性。

图3 预测误差对比

图4 轨迹生成及选择可视化

03 不断逼近个性化：决策特征自适应更新方法设计

Approaching Individuation: Design of Adaptive Updating Method for Decision Features

在无行为规则约束和非机动车行为不稳定的背景下，骑行者根据交互环境和个性需求快速决策，表现出高度动态和异质的行为特征。解析和追踪这些决策特征是实现精确轨迹预测的关键。针对骑行者行为的随机性和多样性，前一节提出了基于轨迹“生成-选择”机制的轨迹预测框架，通过候选轨迹生成和决策分析提升预测能力。在此基础上，本节进一步提出自适应预测方法，重点量化、识别并在线学习骑行者个性化决策特征，以动态捕捉个体差异，实现对异质骑行者的精准预测。

A. 建模框架

如图5所示，自适应框架基于基线预测模型，包括两个在线更新路径: 激进水平更新路径和理性水平更新路径。每个更新路径包括特征识别模块、在线学习和估计模块。在应用该模型时，首先，特征识别模块通过持续捕捉观察结果和相应的预测结果来实时识别骑行者的特征序列。然后，学习特征序列的演化模式，并在此基础上估计下一时刻模型的个性化特征参数。最后，该框架基于预期特征输出个性化预测结果，并将其反馈给特征识别模块，以帮助确定下一个时间步骤的特征值。

图5 基于骑行者决策特征在线更新的非机动车自适应运动预测框架

对于激进水平和理性水平的关系有如下解释：在行为建模中，由于人和决策条件的异质性，统一模型不能完美地解释每个骑行者的决策效用函数，因为每个人在统一决策模型下表现出有界理性决策。假设每个骑行者的实际效用函数由绝对理性决策和非理性决策组成，而非理性决策则用来描述其实际效用函数中的未知效用项，即可变理性水平描述其在已设定效用函数中未能实现最优选择的程度。

U_real(c_i) = U_abs+ U_ir(c_i)

式中，U_real(c_i) 是每个骑车人的实际效用函数，c_i表示候选行为 i 。U_abs表示可以显式表征的效用项，表示绝对理性决策。U_ir(c_i) 表征非理性决策，描述为效用的不确定项，受个人性格和决策条件的影响。

B. 决策特征的在线识别

决策特征包括骑行者的激进水平和理性水平，如图6所示，分别采用以下方法进行识别：

激进水平：采用理论最优轨迹作为真实轨迹的表征，即在候选轨迹中选择与观测轨迹最相似且平均误差最低的轨迹。

理性水平：定义为骑行者实际选择的个体效用与理论最优个体效用的比值，用于刻画决策过程中的理性程度。

图6 基于骑行者决策特征在线更新的非机动车自适应运动预测框架

C. 决策特征的在线更新

在特征识别模块的基础上，每条路径均配备一个在线更新模块。该模块的核心目标是对已知特征序列进行模式建模，深入挖掘特征序列的演化规律。通过这一过程，模块不仅能够更全面地捕捉骑行者的个性化特征，还能利用这些信息为下一时刻的预测提供更精准的特征参数。同时，该模块根据在线场景特征进行实时参数估算，使框架能够灵活适应动态变化的骑行环境。

D. 结果分析

图7展示了自适应模型通过在线更新机制捕捉骑行者#1 的动态决策特征对预测准确性的关键作用。相比基线模型未能体现行为变化的局限，自适应模型动态识别并调整了骑行者的攻击性和理性水平，准确预测了其超车后返回骑行区域的行为。这不仅提升了轨迹预测的精度，还表明在线更新在反映骑行者个性化决策特征及其随环境变化的动态调整中至关重要，为复杂交通场景中的智能预测奠定了基础。

图7 个体骑行者的连续预测结果

04 测量群体内的个体小九九：群体效应下的个体交互策略学习

Measure Individuals Within a Population: Individual Interaction Strategy Learning under Group Effects

骑行者因体积小、易受伤的特点，通常选择结伴骑行以增强抗风险能力。然而，群体内骑行者因异质动态特征，常表现出竞争与合作并存的复杂交互策略和关系。准确识别和解析骑行者在群体影响下的交互策略和交互关系成为实现群体骑行者准确轨迹预测的关键。在前述个体轨迹预测的基础上，本节提出多智能体协同决策框架，通过统一描述群体偏好，学习其交互策略和交互关系，实现群体骑行者轨迹的联合预测。

A. 学习框架

图8展示了提出的双层交互框架，用于群体骑行者轨迹预测。该框架以骑行者和其他交通参与者的特征为输入，输出每个骑行者的未来轨迹。框架包含了四个模块：骑行者交互策略模块、自身轨迹演化模块、其他交通参与者轨迹演化模块，以及双层交互模块。具体交互流程如下：

(1) 外部交互

在这一阶段，骑行者群体作为一个整体，与外部交通参与者进行交互。通过分析外部环境的变化，模型考虑了其他交通参与者的行为对群体骑行者的影响。

(2) 个体安全-效率权衡

接下来，模型分析每个骑行者在安全与效率之间的决策偏好。这一阶段的核心就是识别骑行者在特定情境下的行为倾向，并描述其交互决策策略。

(3) 内部分配

在考虑了个体的安全与效率权衡后，模型根据骑行者的个性化决策特征和群体内部的互动关系，调整群体行为的分配，以确保群体内的行为协调与最优决策。

(4) 输出未来轨迹

最终，通过外部交互、个体分析和内部分配的综合作用，模型输出每个骑行者的未来轨迹。该过程综合考虑外部环境和个体内外因素，实现群体骑行者轨迹的联合预测。

图8 面向群体骑行者轨迹预测的双层交互框架

B. 个体偏好表征和学习

个体交互策略通过安全-效率偏好进行表征，并通过注意力机制进行学习。安全偏好反映了骑行者对风险的规避，而效率偏好体现了对路径优化的需求。注意力机制根据交通状况和历史行为自适应地调整偏好权重，使模型在不同情境下更关注相关决策因素，从而精准捕捉骑行者的个性化策略，并优化未来轨迹预测。

C. 交互关系量化

本研究提出了两种定量方法来捕捉骑行者之间的交互关系：

(1) 合作度方法

该方法通过分析骑行者的效率偏好和安全偏好之间的差异来描述骑行者之间的合作度。差异越大，骑行者之间的合作关系越强；反之，差异较小则表明竞争关系较强。

(2) 攻击性水平方法

该方法通过量化骑行者的攻击性水平来刻画其交互行为。攻击性水平高的骑行者倾向于维持原有的运动状态，而攻击性水平低的骑行者则更倾向于调整自己的运动状态，以屈服于对方。这一方法有助于识别骑行者在交互中的行为倾向，进而预测其未来的运动轨迹。

D. 结果分析

图9 (a) 展示了一个多骑行者交互的实例。图9 (c) 和 (d) 揭示了场景1中骑行者之间的合作-竞争关系以及攻击-保守程度。从图9(c)中可以看出，骑行者#4由于与其他骑行者的偏好类型不同 (更具攻击性)，可以与他们建立更好的合作关系。图中的图形证实，骑行者#1 和#3 之间的竞争关系高于骑行者#2 和#3 之间的竞争关系 (0.322<0.659)。骑行者#1 的最终轨迹趋势进一步证实了这一点，表明骑行者#1对骑行者#3构成了更大的威胁。此外，与骑行者#2和骑行者#3之间的交互相比，骑行者#1和骑行者#2都表现出更高的合作性。这一点从他们产生的平行轨迹中可以看出。

图9 群体骑行者的交互关系

05 未来仍任重道远：非机动车行为研究的实践探索

There's Still a Long Way to Go: Practical Exploration of Non-motor Vehicle Behavior Research

非机动车“随心所欲”的行为特征，使得机非混行场景成为自动驾驶技术面临的重大挑战之一。非机动车以其高度灵活性和个性化的决策过程，在动态交通环境中表现出复杂多变的行为模式，这让传统基于历史轨迹的时序预测方法难以奏效。同时，相较于机动车领域已经较为成熟的研究体系，非机动车在行为规律和交互模式研究方面显著滞后，成为制约自动驾驶技术进一步发展的核心瓶颈。

非机动车的不确定性不仅增加了自动驾驶系统在感知和决策方面的负担，还直接影响车辆在复杂场景中的安全性与稳定性。破解这一交互困境的关键在于系统化地揭示非机动车的行为规律，构建可解释、可预测的模型，将其随机行为转化为可量化的交互模式。这不仅是自动驾驶技术从实验室迈向现实复杂环境的必经之路，更是提升智能交通系统效率与安全性的关键突破点。

本研究初步探索了骑行者“要”去哪里的决策动因，并提出了基于预期最优决策的轨迹预测框架。然而，未来的研究需聚焦一下关键方向：首先，需提升模型的泛化能力，使其在不同场景和不同类型交通参与者中具备迁移性和统一建模能力，以应对多样化交通环境的挑战。其次，应深入解决现实问题，如数据匮乏、实时性约束及复杂场景中的模型适用性问题，确保预测方法在实际应用中表现出色。此外，还需主动拓展更多应用场景，例如将非机动车行为研究成果用于交互风险评估和策略优化，为构建安全、高效的智能交通系统提供坚实支持。

关于研究方法和实验设计的详细内容，可参考论文原文：

[1] Li, J., Ni, Y., Sun, J., A Two-layer Integrated Model for Cyclist Trajectory Prediction Considering Multiple Interactions with the Environment. Transportation Research Part C: Emerging Technologies. 2023. 155, 104304.

[2] Li, J., Ni, Y., Sun, J., Considering Cyclists’ Aggressiveness and Bounded Rationality：A Self-learning Motion Prediction Model for Cyclists at Intersections. IEEE Transactions on Intelligent Vehicles. 2024. early access. DOI: 10.1109/TIV.2024.3416957

[3] Li, J., Ni, Y., Sun, J., Understanding Interaction Strategies in Groups: A Two-layer Interaction Model for Multi-cyclist Motion Prediction. IEEE Transactions on Intelligent Vehicles. 2024. early access. DOI: 10.1109/TIV.2024.3427359

上篇：第152期组会：孔若溪《基于TransCAVE的人机交互算法验证》

下篇：羽动青春|TOPS羽毛球比赛

友情链接 TRB 交通运输部同济大学交通运输工程学院

LOGO

电话：021-69583650 管理员邮箱：2015qgy@tongji.edu.cn
地址：上海市曹安公路4800号同济大学交通运输工程学院A440 邮编：201804

TOPS课题组页面浏览465,829次/访客70,123人次