
视觉跟踪手艺 是盘算机视觉领域(人工智能分支)的一个主要 课题,有着主要 的研究意义。在军事制导、视频监控、机械人视觉导航、人机交互、以及医疗诊断等许多方面有着普遍 的应用远景 。随着研究职员 一直 地深入研究,视觉目的 跟踪在近十几年里有了突破性的希望 ,使得视觉跟踪算法不仅仅局限于传统的机械学习要领,更是团结 了近些年人工智能热潮—深度学习(神经网络)和相关滤波器等要领。本文主要先容 以下几点:什么是视觉目的 跟踪(单目的 跟踪)、单目的 跟踪的基本结构(框架),目的 跟踪存在的挑战,目的 跟踪经典相关要领及研究趋势等。

01
单目的 跟踪使命 简介
目的 跟踪是盘算机视觉领域的一个主要 问题,现在 普遍 应用在体育赛事转播、安防监控和无人机、无人车、机械人等领域。下面是一些应用的例子。

车辆跟踪

足球角逐

田径角逐
视觉目的 (单目的 )跟踪是指对图像序列中的运动目的 举行 检测、提取、识别和跟踪,获得运动目的 的运动参数,如位置、速率 、加速率 和运动轨迹等,从而举行 下一步的处置赏罚 与剖析 ,实现对运动目的 的行为明确 ,以完成更高一级的检测使命 。
其详细 使命 即凭证 所跟踪的视频序列给定初始帧(第一帧)的目的 状态(位置、尺度),展望 后续帧中该目的 状态。基本结构(框架)如下:
基本流程:输入初始帧并指定期望跟踪的目的 ,通常用矩形框标定(Input Frame),在下一帧中发生众多候选框(Motion Model)并提取这些候选框的特征(Feature Extractor),视察模子 (Observation Model)对这些候选框评分。最后在这些评分中找一个得分最高的候选框作为展望 的目的 (Prediction A),或者对多个展望 值举行 融合(Ensemble)获得更优的展望 目的 。至此算法完成了凭证 第一帧的信息对第二帧的展望 ,后续帧以此类推,同时凭证 指定规则更新模子 (Model Updater)。
凭证 如上的框架,将目的 跟踪划分为五项主要的研究内容,流程图下图所示:

流程图
运动模子 (Motion Model):怎样 发生众多的候选样本。特征提取(Feature Extractor):使用 何种特征体现目的 。视察模子 (Observe Model):怎样 对众多候选样本评分。模子 更新(Model Updater):怎样 更新视察模子 使其顺应 目的 的转变 。集成要领(Ensemble):怎样 融合多个决议 获得一个更有的决议 结构。
下图的总结可以资助更好的明确 目的 跟踪算法是怎样 完成跟踪使命 的。

跟踪使命 流程
02
目的 跟踪算法分类
大多数的跟踪要领主要集中对视察模子 的设计,凭证 视察模子 的差异可分为两类:天生 式模子 (Generative Model)和判别式模子 (Discriminative Model)。
天生 式模子 :通过提取目的 特征来构建表观模子 ,然后在图像中搜索与模子 最匹配的区域作为跟踪效果 。岂论接纳全局特征照旧局部特征,天生 式模子 的本质是在目的 体现的高维空间中,找到与目的 模子 最相邻的候选目的 作为当前预计。此类要领的缺陷在于只关注目的 信息,而忽略了配景信息,在目的 外观发生强烈 转变 或者遮挡时间 容易泛起目的 漂移(drift)或者目的 丢失。
举例:跟踪器从当前帧知道了目的 区域80%是红色,20%是绿色,在下一帧中搜索算法回去找最切合这个颜色比例的区域。

天生 式算法框架
判别式要领:将目的 跟踪看做是一个二元分类问题,通过训练关于目的 和配景的分类器将目的 从配景中疏散出来,从候选目的 中确定目的 ,该要领可以显著的区分配景和目的 ,性能鲁棒,徐徐成为目的 跟踪领域主流要领。且现在 大多数基于深度学习的目的 跟踪算法也属于判别式要领。
举例:在训练时告诉跟踪器,目的 80%是红色,20%是绿色,同时配景中有桔红色,要格外注重 ,这样分类器知道更多信息,效果也相对较好。

判别式算法框架
03
目的 跟踪使命 的难题 和挑战
虽然目的 追踪的应用远景 很是普遍 ,但照旧有一些问题限制了它的应用,主要问题例举如下:
形态转变 - 姿态转变 是目的 跟踪中常见的滋扰问题。运动目的 发生姿态转变 时, 会导致它的特征以及外观模子 发生改变, 容易导致跟踪失败。例如:体育角逐中的运发动、马路上的行人。尺度转变 - 尺度的自顺应 也是目的 跟踪中的要害问题。当目的 尺度缩小时, 由于跟踪框不能自顺应 跟踪, 会将许多配景信息包罗在内, 导致目的 模子 的更新错误:当目的 尺度增大时, 由于跟踪框不能将目的 完全包罗在内, 跟踪框内目的 信息不全, 也会导致目的 模子 的更新错误。因此, 实现尺度自顺应 跟踪是十分须要的。遮挡与消逝 - 目的 在运动历程中可能泛起被遮挡或者短暂的消逝 情形 。当这种情形 发生时, 跟踪框容易将遮挡物以及配景信息包罗在跟踪框内, 会导致后续帧中的跟踪目的 漂移到遮挡物上面。若目的 被完全遮挡时, 由于找不到目的 的对应模子 , 会导致跟踪失败。图像模糊 - 光照强度转变 , 目的 快速运动, 低分辨率等情形 会导致目的 模糊, 尤其是在运动目的 与配景相似的情形 下更为显着 。因此, 选择有用 的特征对目的 和配景举行 区分很是须要。
下图是上述问题的一些实例。

目的 跟踪使命 中的难题 与挑战
如上图所示,目的 跟踪使命 中的难题 和挑战包罗:
1.形变;
2.光照转变 ;
3.相似滋扰;
4.运动模糊;
5.配景滋扰;
6.遮挡;
7.超出画面;
8.尺度转变 ;
9.平面外宣传;
10.平面内旋转;
11.配景相似
04
目的 跟踪的数据库
严谨的数据集是驱动算法的要害,前几年目的 跟踪偏向的数据库资源相对匮乏,这也是目的 跟踪的生长相对落伍 于目的 检测的主要 缘故原由 之一。下面简要先容 了两个权威的目的 跟踪偏向的数据库。

OTB50数据集
OTB可以说是做单目的 跟踪必跑的数据库了,2013年的OTB50包罗50小我私人 工标注的视频序列。由于在此之前目的 跟踪偏向没有较量 公认的数据库,所有的单跟踪算法没有一个统一的权衡,以是 这个数据库的意义很是重大,直接促进了单目的 跟踪算法的生长。厥后又扩展为OTB100发送到TPAMI,有100个序列,难度更大越发权威。若是 想要相识 近年来较量 厉害的跟踪算法,可以参考吴毅先生 的论文(附后)。

VOT数据库
VOT Challenge是目的 跟踪领域的赛事,类似于图形识别领域中的ImageNet挑战赛。这些赛事通常都是尺度数据集的泉源 ,以是 VOT数据集是一个常用的目的 跟踪数据集,所有序列支持免费下载。VOT竞赛已经举行 了9届,每年竞赛都市泛起许多新的算法和别致的思绪 ,2022年的VOT竞赛也即将开启,由于每年的评测序列都市更新,且标注的准确 度逐年提高,VOT竞赛也被视为视觉跟踪领域最难的竞赛,以是 效果 相对更可靠。
OTB和VOT区别:OTB包罗25%的灰度序列,而VOT都是彩色序列,这也是造成许多颜色特征算法性能差异的缘故原由 。两个库的评价指标不尽相同,详细 请参考论文和竞赛官网。
05
目的 跟踪经典算法
前几年最热门的天生 式跟踪要领是希罕 编码(Sparse Coding), 而迩来 判别式跟踪要领逐渐占有 了主流职位,以相关滤波(CF:Correlation Filter)和深度学习(DL:Deep Learning)为代表的判别式要领取得了令人知足 的效果。本节按年份顺序对经典算法举行 一个简朴地梳理,其中各个算法的年份以论文揭晓 的年份或者加入benchmark的年份为依据,资助明确 单目的 跟踪算法的演变和生长趋势。针对于差异的跟踪使命 的挑战各个算法所提出的解决头脑 值得我们学习体会,跟踪算法的生长趋势可见一斑。
LK Tracker 1981
LK Tracker应该是最早的目的 跟踪事情,它使用了光流的看法,如下图所示,差异颜色体现光流差异的偏向,颜色的深浅体现运动的速率 。光流的盘算很是简朴也很是快,可是 它的鲁棒性欠好,基本上只能对平移且外观稳固 的物体举行 跟踪。

光流法
2002 Mean Shift
Mean Shift接纳均值漂移作为搜索战略,这是一种无参概率预计要领,该要领使用 图像特征直方图结构空间平滑的概率密度函数,通过沿着概率密度函数的梯度偏向迭代,搜索函数局部最大值。在其时成为了常用的目的 跟踪要领,简朴易实现,但鲁棒性较低。

MeanShift算法
2010 MOSSE
MOSSE(Minimum Output Sum of Squared Error)使用相关滤波来做目的 跟踪(不是第一个,但由于思绪 清晰、算法完整称为相关滤波跟踪算法的鼻祖),其速率 能够到达600多帧每秒,可是 效果一样平常 ,主要是由于 它只使用了简朴的原始像素特征。
大致流程:
1、再入初始帧的groundtruth(包罗中央 点和矩形框的高宽)
2、对当前目的 框举行 随机仿射变换天生 128个样本,每个样本经由 高斯函数盘算得出响应值,最终团结 公式得出滤波器模版(图13中的FILTER)。
3、凭证 模版盘算得出第二帧的响应图,其中响应值最大的点为第二帧目的 的中央 点,并以此画出目的 框(图13中的OUTPUT)。
4、凭证 第二帧的目的 区域更新滤波器模版
5、重复3-4步

MOSSE算法
2012 CSK
CSK的作者针对MOSSE做出了一些刷新 ,作者以为 循环移位能模拟当前正样本的所有的转换版本(除界线 以外),因此接纳循环矩阵举行 麋集 采样(对比MOSSE的随机仿射采样),并通过核函数将低维线性空间映射到高维空间,提高了相关滤波器的鲁棒性。
循环矩阵是一种特殊的矩阵,它的一维形式就是由一个n维向量每次向右循环移动一个元素,直到天生 一个n×n的矩阵,详细 效果如下图所示。

循环矩阵示意图
2014 KCF
CSK的特征输入是单通道的灰度像素,而KCF使用 的是HOG多通道特征,核函数使用 了高斯核函数。

偏向梯度特征效果图
可以说CSK和KCF的团结 才是完整的核化相关滤波器的演变趋势,既有循环矩阵及傅立叶对角化简化盘算,又有对单通道特种应用的拓展,可以顺应 更多优异 的特征形貌 。
2014 DSST
DSST作者将跟踪分为两个部门——位置转变 和尺度转变 。在跟踪历程中,作者界说了两个滤波器划分用于确定新目的 的位置和尺度评估,提高了算法的鲁棒性。
2015 MDNet
MDNet设计了一个轻量级的小型网络学习卷积特征体现目的 。作者提出了一个多域的网络框架。
在离线训练时,特征提取网络是共享的,同时针对每个视频序列构建一个新的检测分支举行 训练。这样特征提取网络可以学习到通用性更强的与域无关的特征。
在跟踪时,保留并牢靠 特征提取网络,针对跟踪序列构建一个新的分支检测部门,用第一帧样本在线训练检测部门之后再使用 跟踪效果 天生 正负样原来微调检测分支。
此外,MDNet在训练中负样本的天生 用到了难例挖掘手艺 ,随着训练的举行 增大样本的分类难度,从而使得网络的判别能力越来越强。
如下图所示,负样本越来越难分。

难例挖掘
2015 SRDCF
SRDCF的作者思量 到若仅使用单纯的相关滤波会导致界线 效应,也就是相关滤波接纳循环移位采样导致当目的 移位到边缘时会被支解开,此时获得的样本中就没有完整的目的 图像从而失去效果。

界线 效应
于是,作者的思绪 是既然界线 效应发生在界线 周围 ,那就忽略所有移位样本的界线 部门像素,或者说限制让界线 周围 滤波器系数靠近 0,详细 做法是加入空间正则化,处罚界线 区域的滤波器系数,效果如下图。

SRDCE空间正则化
2015 HCF
HCF的主要孝顺 是把相关滤波中的HOG特征换成了深度特征,它使用的是VGG的3、4、5三个层来提取特征,针对每层CNN训练一个过滤器,而且凭证 从深到浅的顺序使用相关滤波,然后使用 深层获得的效果 来指导 浅层从而镌汰 搜索空间。

HCF算法提取深度特征
上图是使用卷积可视化获得的,如图中所示,在conv3中的特征能够较量 清晰的看到目的 的轮廓,可是 在conv5中已经很难看到细节所在,可是 ,在conv5当中能够看到的是,本层特征包罗了较多的语义信息,左半部门的高亮区域就是目的 位置的所在的或许区域规模,以是 在高层特征当中,能够很容易的找到目的 所在的或许区域规模,然后逐步使用较低条理的特征对目的 举行 准确 定位。
2016 Staple
Staple提出了一种互补的方式。思量 到HOG特征对形变和运动模糊较量 敏感,可是 对颜色转变 能够到达很好的跟踪效果,color特征对颜色较量 敏感,可是 对形变和运动模糊能够有很好的跟踪效果,因此作者以为 若能将两者互补就能够解决跟踪历程当中遇到的一些主要问题。于是,Staple使用HOG-KCF与color-KCF团结 算法对目的 举行 跟踪。
此算法的创新思绪 简朴直白,但效果很惊艳。
2016 TCNN
TCNN使用一个树形的结构来处置赏罚 CNN特征。作者使用 可靠性来分配展望 目的 的权重,接纳的更新战略是每10帧删除最前的节点,同时建设一个新的CNN节点,选择能够使新节点的可靠性最高的节点作为其父节点。这样一直保持一个active set,内里 是10个最新更新的CNN模子 ,用这个active set来做跟踪。但由于要更新网络结构,速率 较慢。

TCNN树形结构更新示例
2016 siamFC
SiamFC要领的焦点头脑 很简朴,就是将跟踪历程妄想 为一个相似性学习问题。即学习一个函数 f(z, x) 来较量 样本图像 z 和搜索图像 x 的相似性,若是 两个图像相似度越高,则得分越高。为了找到在下一帧图像中目的 的位置,可以通过测试所有目的 可能泛起的位置,将相似度最大的位置作为目的 的展望 位置。
在深度学习中处置赏罚 相似度问题最典型的是接纳Siamese架构,SiamFC的网络结构如下图:

SiamFC网络结构
2017 CFNet
CFNet接纳孪生网络的架构,训练样本(这里指用来匹配的模板)和测试样本(搜索的图像区域)通过一个相同的网络,然后只将训练样本做相关滤波操作,形成一个对转变 有鲁棒性的模板。为了抑制界线 效应,作者施加了余弦窗并在之后又对训练样本举行 了裁剪。
2018 UPDT
UPDT算法的主要头脑 是区别看待深度特征和浅层特征,深层特征能通过数据增强来提升效果,同时深层特征主打的是鲁棒性而不是精度;相反,浅层特征经数据增强后反而降低了效果,但同时它能够很好地保证精度。因此,作者得出了深度模子 和浅层模子 先划分自力 训练,最后再融合的方案。
2018 SiamRPN
SiamRPN在SiamFC的基础上使用 了Faster RCNN中的RPN,解决了之前深度学习跟踪算法没有domain specific(可明确 为类间不区分)以及还需特另外 尺度检测与在线微调的问题。RPN回归网络的引入,一方面提高了精度,另一方面回归历程取代多尺度检测,使得速率 有所提升。

SiamRPN网络结构
2019 SiamRCNN
SiamRCNN发现重检测很容易受到滋扰物的影响从而发生模子 漂移,从难例挖掘和运动轨迹动态妄想 两个角度入手,设计了一个使用 第一帧和前一帧为模板的孪生网络检测结构,在短时跟踪评价上效果惊人,在长时跟踪评价上也有很是显著的前进 。
其中轨迹动态妄想 算法(TDPA)主要头脑 是通过重新检测前一帧中所有的目的 候选框,并将这些候选框随时间分组到短目的 轨迹中,同时跟踪所有潜在的目的 ,包罗滋扰目的 。然后凭证 视频中所有目的 工具和滋扰工具的完整历史轨迹选择当前最佳工具。
2020 RPT框架
RPT算法框架由目的 状态预计网络与在线分类网络两部门组成:
目的 状态预计网络将跟踪目的 状态体现为特征点集,以提升对目的 位姿转变 、几何结构转变 的建模能力。在视觉目的 跟踪使命 中,为了利便 真值标注与特征提取,目的 状态通常用矩形框举行 体现。矩形框一方面是对目的 区域的一种简陋体现,包罗多余的配景;另一方面不具备对目的 位姿转变 、几何结构转变 的建模能力,进而限制了回归精度。因此,将跟踪目的 体现为一系列特征点,通过监视学习目的 区域内的语义要害点与极值点,实现更细腻 的目的 状态预计。

PRT目的 状态预计网络
在线分类网络由轻量的两层全卷积神经网络组成,使得RPT框架具备反抗周边相似滋扰物的强鲁棒性。

RPT在线分类网络
06
目的 跟踪的研究趋势
本节浅析近几年来目的 跟踪领域种种算法主流的研究趋势和生长偏向。
a) 信息提取
深度特征
在现实场景中,物体是在三维的运动场中移动的。而视频或图像序列都是二维的信息,这着实 是一些难题的基础缘故原由 之一。一个较量 极端的例子就是剃头 店门前经常会泛起的旋转柱,若是 单纯地从二维角度来看,柱子是向上运动的,可在现实 的运动场中柱子是横向运动的,视察和现实 的运动偏向是完全垂直的。

旋转柱效果图
因此,为了能够更好地跟踪目的 ,我们需要提取尽可能好的特征,此外最好能从视频或图像序列中学到更多富厚的信息(尤其是含语义的)。
时域和空间域团结
由于CNN能够在学习的历程中能够发生对样本中各个区域有区分的关注度,因此可以不思量 界线 效应。对界线 效应的处置赏罚 主要是在相关滤波类等需要循环移位的算法中泛起。
事实上,目的 跟踪这一个使命 自己就在使用 时域信息,由于 展望 下一帧一定 需要上一帧的信息,然而仅仅使用 上一帧的信息往往是不够的,充实的使用 时域信息在正则或者辅助影象方面都可以取得一定的效果。
b) 元学习
当深度特征兴起之后,目的 跟踪中的许多算法都选择迁徙 目的 分类使命 中的一些预训练模子 来提取特征,这种迁徙 学习着实 就包罗了元学习的头脑 。例如MDNet将每个视频看做一个域,在测试时新建一个域但同时保留了之前训练时在其他域上学到的履历 ,既能够更快更好地在新的视频序列上学习也阻止 了过拟合。
孪生网络现实 上也是元学习领域一种较量 常用的结构,它自己学习了怎样 去判断输入之间的相似度。
c) 防止过拟合
目的 跟踪中由于模版更新或目的 形变等因素造成的过拟合问题也是一个较量 主要 的关注点,下面是一些较量 常见的要领:
接纳希罕 更新的方式(隔几帧更新一次),相当于将使用 单帧信息的更新酿成了批处置赏罚 的形式。每次更新接纳最近几帧的信息而不是只用现在 帧的信息,其原理类似上一条。使用 初始帧或者质量较量 好的几帧存储的样原来举行 时域正则。对差异的情形 接纳差异的更新或者初始化的战略。使用掩模去除不行靠的信息。(文章泉源 :知乎源潮、51cto)

