GAITC 2022 智媒专题论坛丨王亦洲：主动跟踪算法研究

消息来源:baojiabao.com 作者: 发布时间：2026-05-23

报价宝综合消息GAITC 2022 智媒专题论坛丨王亦洲：主动跟踪算法研究

11 月 27 日，在 2022 全球人工智能技术大会上，由 CAAI 智能传媒专委会、中国传媒大学媒体融合与传播国家重点实验室、新浪 AI 媒体研究院联合支持的"融合与发展"新智者・智能媒体专题论坛在线上举行。CAAI 智能传媒专委会副主任，北京大学博雅特聘教授王亦洲以《主动跟踪算法研究》为主题进行了分享。

图注：王亦洲教授-"融合与发展"新智者・智能媒体专题论坛

以下为王亦洲演讲实录，内容经编辑略有删减：

王亦洲：谢谢叶老师的介绍，各位专家下午好，我是来自北京大学的王亦洲，报告内容是主动跟踪算法研究。解了一下听众范围比较广，可能更多介绍思路性的东西。今天我将主要介绍如何构建多智能体博弈机制，以实现鲁棒的主动目标跟踪。具体的，我将先简要介绍博弈论、认知机制、主动目标跟踪任务和虚拟环境等相关信息，然后将重点介绍四种多智能体博弈机制用于主动目标跟踪。

首先，博弈现象非常普遍，小到我们的日常生活，大到经济体或国家的经济与政治活动。从博弈者之间的关系角度，博弈可以分为几种，如对抗性博弈，比如常见的零和博弈，还有基于共同利益的合作博弈，但更多的是混合动机博弈。在这类博弈中，智能体短期和长期的 interest 可能不一致，个体和群体的利益可能也不一致。传统的博弈策略集合是有限的，相对来说也是静态的，这时候博弈相对简单，但是如果是混合动机博弈，博弈会受到智能体心理状态的影响，甚至可能采取不理智策略，这时候博弈分析变得更加复杂。所以研究混合动机博弈是多智能体系统现在的前沿研究方向，会涌现出很多有趣的交互智能现象，如合作、信任、欺骗、公平等。

2005 年科学期刊列举了 125 个我们面临挑战的科学问题，其中就有博弈论问题。用 AI 方法研究合作现象的演化是 AI for science 很有趣的切入点。我举两个例子：比如在囚徒困境中，由于囚徒无法信任对方，因此倾向于互相揭发，而不是保持沉默。最终导致纳什均衡仅落在非合作点上的博弈模型，而不是群体意义上的帕累托最优。囚徒困境所反映出的深刻问题是，人类的个人理性有时能导致集体的非理性。

在猎鹿博弈中，每个人策略都是根据对手策略来相应地调整，但是如何形成 commitment，这是个有趣的问题。猎鹿博弈是关于信任的博弈。按照经济学，合作猎鹿的纳什均衡比分头抓打兔子的纳什均衡具有帕累托优势。猎鹿博弈和囚徒困境的区别在于，囚徒无法沟通信息，猎人可以沟通信息，博弈结果就会有所不同。区别于囚徒困境，猎鹿博弈有两种纯策略纳什均衡：全合作或全背叛，而在囚徒困境中，尽管全合作是帕累托最优，但只有全背叛才能达到纳什均衡。

上面两个博弈例子还是比较简单的，日常生活中我们的情况往往复杂很多。近几年我们针对复杂博弈提出以下研究思路：首先要搭建一个比较复杂并具有一般性的环境，研究智能体在其中的博弈行为。进而将复杂的认知模型引入决策过程，研究交互智能现象的涌现机制。

下面我会简单介绍一个认知模型-Theory of mind。人的交往过程中不是只从自己角度考虑问题，还要了解别人怎么想的，别人的信念是什么，他处于什么情绪状态，对方想想要的是什么。有了这个机制，人们的交流就会更加高效。我们在自主跟踪问题中就引入了这个认知机制。

近些年来，计算机视觉已经从被动的感知慢慢过度到主动视觉，而且正在向下一个阶段自主学习发展。2005 年 G.Bekey 给 Autonomy 下了一个通俗易懂的定义，系统在完成现实环境当中完成任务时会在相当长时间内不需要外界控制，这个系统我们可以说它具有自主性。

自主系统的标志性能力有：可以进行弱监督或无监督学习，可以不断地获得、总结、积累知识，可以探索环境和决策，，能够独立地完成这件事情。四是可以根据大任务或者无任务情况下自己去给自己布置任务，或者在大任务当中 set 子任务，根据环境变化调整自己的行为。所以我们一般说应该至少具备这四种基本能力，才有可能让系统变得 autonomous。在可控环境下要实现一个 autonomous machine 相对还是比较容易的，但如果在开放环境中把一个智能体放进去，让它像一个新生儿一样，自主地去了解这个世界，给自己设置任务去完成，不断地成长，这是非常具有挑战性任务。

下面回到研究主题，Autonomous Visual Tracking 主动目标跟踪就是让机器人根据视觉观测信息，主动控制相机运动，使得目标始终以合适的大小出现在画面的中心。它是一个比较基础的功能，在很多真实系统中都有潜在的应用需求，比如移动机器人，无人机航拍，自动驾驶，智能监控中。我们把刚才讲的社会博弈以及认知构架放到这个自主跟踪系统上，让它产生自主行为，这是一个非常有趣的科学问题。

这里可以看到一个例子，要真正实现主动目标跟踪，其实会有很多不同的挑战。比如，在录制一些比较惊险刺激的特技镜头时，摄影师不仅要让相机对准演员，还要同步适应复杂的地形环境，调动四肢跟随演员移动，其技术难度可能要比演员表演特技还要高。并且这整个过程，从感知到动作都需要做到十分快速精准执行。然而，这对于现阶段的机器人而言，几乎是一件不可能的完成的任务。

那么，要真正实现复杂场景下的主动目标，我们的模型需要适应多样的工作环境（包括不同的天气、光照条件）；还要克服障碍物遮挡（也就是避障），比如遇到障碍物的时候，要找到最短路径绕过障碍物；也要克服动态干扰物的影响，避免混淆。因此，我们就考虑训练一个端到端的模型，输入图像，直接输出动作。感知和决策可以同步优化，互相适应，对应的中间表示也会更加紧凑。

要训练这种端到端的感知-决策网络，当前流行的有两种方法，一种是模仿学习，一种是强化学习。模仿学习样本效率会高一些，但是仍然需要收集专家数据进行训练，而且不可避免的存在数据分布的偏差，模型的泛化性会比较差。对于跟踪模型来说，模型的泛化能力是至关重要的。因此我们采用强化学习，我们只需要设计一个简单的奖赏函数，机器人在环境中自主探索，就可以在试错中学习技能。

但是，如果让智能体在真实场景中交互试错，他的代价是十分高昂的。因此，我们构建 UnrealCV 虚拟环境，用于机器人的自主学习。我们可以从中获取高逼真的视觉观测，精准的 ground truth，以及进行实时的交互，包括多智能体的交互。这个项目已经开源了大家感兴趣都可以用。

这是我们构建的虚拟环境，有室内和室外的。经常一些同学或同僚问在虚拟环境中做的东西到真实环境怎么样，这个问题非常好。有些人认为，虚拟环境中的训练的模型肯定不如真实环境。但是我认为此环境和彼环境没有本质的区别。虚拟环境未必一定比真实环境简单。比如，我们真实世界的重力加速度是 9.8 米每秒方左右，但是虚拟世界当中我闷可以让重力加速度是任意的，可以是月球的，也可以是火星的。地球上十级台风已经很大了，在真实环境中可能没法做实验。但是虚拟环境中，我们可以模拟二十级台风。还有各种摩擦系数、光照条件、极端气候等全都能够模拟，你说虚拟环境一定是真实环境的子集吗？重要的是，从一个环境中训练的模型到另一个环境中都要进行迁移学习进行调整。从一个虚拟环境到另一个虚拟环境、从虚拟到真实，从真实到另一个真实都需要调整，方法其实是一样的。所以不应该简单地说：因为这个方法不是在真实环境中训练的，就否定这个方法的价值，这种结论过于草率。

由于时间有限，下面我简单介绍几个主动跟踪的问题和解决方法。首先我们做了一对一的主动跟踪。它是一个零和博弈，逃跑者目的是要甩开跟踪者。我们提出了一种非对称博弈机制用于主动目标跟踪的学习。也就是，在跟踪器学习跟随目标的同时，让目标同步学习如何摆脱跟踪。在这种竞争机制下，因为跟踪器和目标的能力都是从零开始同步增长的，所以他们在每个训练阶段都能够遇到一个能力相当的对手与之竞争，这就自然得构成了从易到难的课程，使得学习过程更加高效。这个机制是非对称的，因为我们为逃跑者引入了心智模型，让他猜测跟踪者的跟踪策略，从而训练出聪明的逃跑者，最终得到更高明的跟踪者。我们发现一些有趣的智能现象涌现出来，比如逃跑者为了甩开跟踪者，学会了拟态行为。我们把在虚拟环境中训练的跟踪模型非常容易地 transfer 到真实环境当中，效果也很好。

另一个场景还是一跟一，但是多了干扰者，这个时候就复杂了针对视觉混淆干扰的影响，我们提出了一种多智能体混合博弈机制。该机制下，目标和干扰物组成了一个与跟踪器竞争的合作团队，通过主动制造具有迷惑性的外观和行为使跟踪器学习抗干扰的跟踪策略。为了提高多智能体博弈学习的效率，进一步提出了一系列改进方法，包括面向干扰者的奖赏函数、跨模态师徒学习策略以及用于跟踪器的循环注意力机制等。

在多跟一的模型中，我们主要采用的心理模型是从众心理模型，因为物体走到某些角度时会 block 相机的 view，这时被遮挡相机的动作要根据其他相机的 pose 决定。针对复杂场景下的单目标多相机跟踪问题，受"羊群效应"启发，提出了一种位姿辅助的多相机合作跟踪系统。该系统中，设计了一种受羊群心态驱动的位姿控制器，可在视觉观测受限情况下通过参考多数相机位姿状态输出与群体一致的动作（都指向同一区域），实现在复杂场景下的高效合作跟踪。

最后一种更具有挑战性的是多跟多的问题，智能体之间相互协调谁跟谁，把任务分进去之后各自完成各自的任务的思路。针对多相机多目标覆盖问题，提出了一种面向目标分配的层次化多智能体协调机制。该协作机制主要分两层，包括了一个集中式协调者和多个分布式执行者。协调者收集各个执行者的观测信息，进行全局规划，为每个执行者分配子目标任务。每个执行者通过采取一系列基本动作实现对指定目标集的覆盖。为提升模型训练效率和泛化能力，采用了一系列改进方法，包括了用自注意力感知模块处理变长输入输出，面向目标分配的边际贡献近似估计，基于子目标的观测过滤器等。谢谢大家。

2022-12-21 19:14:50