成都市二医院皮肤科鸡皮（成都草市街皮肤科医生哪个好）-鹊肤霖去鸡皮肤方法

本文将资助你对视觉目的追踪问题和经典要领有一个起源的相识。

作者：林肯二百一十三

编辑：Pita

视觉目的跟踪（Visual Object Tracking）是盘算机视觉领域的一个主要问题。只管近年来受到了普遍研究，目的跟踪问题由于自己的高难度、高质量数据的希罕，研究热度比目的检测、语义支解等基本视觉使命略低一些。深度学习的生长和盘算机算力的增强带来了视觉算法性能的突飞猛进，而目的跟踪领域中基于深度神经网络的要领只在近几年才初见眉目，可谓大有可为。

若是你对视觉目的追踪有所兴趣或者是这一领域的入门新手，本文将资助你对视觉目的追踪问题和经典要领有一个起源的相识。若是你是已经有了一定相关知识储蓄的研究者，也接待探讨、指教。

单目的跟踪

起源——相关滤波与目的跟踪

给你一张我的正脸照（没有经由美颜处置赏罚的），你该怎样在人群中找到我呢？一种最直观的方案就是：“谁长得最像就是谁”。可是对于盘算机来说，怎样权衡“长得像”，并不是个简朴的问题。这就涉及一种基本的运算——相互关（cross-correlation）。相互关运算可以用来怀抱两个信号之间的相似性。在离散的图像空间中，它的数学界说是这样的：

h和f划分为核和图像，代表着我们要搜索的目的模版和存在要搜索的目的的图像。若是这个公式对你来说有点难以明确，那你又能否记起离散图像空间卷积运算的界说：

哦~从公式看，它俩不就是把 h水平、垂直划分翻转一下的关系嘛！现实上，在许多机械学习库的实现中，所谓的“卷积”就是通过相互关运算来实现的——横竖卷积核中的所有参数都是通过优化获得的、物理意义不明的值，它要做的仅仅是“在卷积核合适的位置学习合适的值”。严酷使用卷积运算学习获得的核，等价于使用相互关运算学习到的核的180度翻转。非要去纠结这二者的差异，也就意义不大了。

话说回来，相互关运算让我们得以权衡 h与f的相似度，换句话说，相互关获得的响应图中每个像素的响应崎岖代表着每个位置相似度的崎岖。假设目的存在于新一帧图像f中的话，那么在h和f对得最齐的地方就应该是目的中央的位置了！

可是紧接着，这样的思绪就又会泛起一些难点：目的的形状、巨细甚至身处的情形都是在一直发生转变的。在思量这些变数的同时，怎样学习目的稳固的那些特征，从而准确地举行定位呢？或者说，怎样让核 h能够通过与f的相互关运算来最有用地获得响应呢？这也就是单目的跟踪主流要领所实验的思绪。用更数学一点的界说来讲，就是：

的界说则是响应图的ground truth。由于我们处置赏罚的是一个一连的图像序列，以是还存在下标i通过对上式中的h对整个图像序枚举行优化，我们可以让目的跟踪算法学习一个最优的相关滤波器。为了提升优化的速率，我们还可以把h和 f 投射到傅里叶频域。空域中的相互关运算在频域中酿成了逐项相乘，优化目的也就酿成了：

它等价于：

那么对于整个序列而言，我们可以解出最优的：

但这并纷歧定对于每一帧图像都是最优的。为了让随着序列的举行而顺应性地举行更新，我们可以递归式地界说一直更新中的：

通过调整更新学习率参数 η ，我们可以让算法学得具有高鲁棒性而且能够快速顺应目的外观转变的。上述的历程就是首次在单目的跟踪问题上使用相关滤波的事情——MOSSE[1])（Minimum Output Sum of Squared Error, CVPR10, F. Henriques et al.）的基本思绪。

生长——日渐完善的CF模子

一转眼，距离MOSSE被提出已经是九年多的光景。现在的单目的视觉跟踪已经生长到了怎样的状态了呢？请看下图：

近年来目的跟踪要领的生长（图片泉源：foolwood/benchmark_results，大图可点击阅读原文审查）

在这个大树中，MOSSE成为了CF（Correlation Filter，即相关滤波）目的追踪算法的鼻祖。在MOSSE之后，种种基于相关滤波思绪的目的追踪要领蓬勃生长、日渐繁荣，而它们的目的追踪算法基本框架如下图所示。

基于相关滤波的目的追踪基本框架（图片来自网络）

只管概略框架相同，昔时的MOSSE在种种卷积神经网络层出不穷的今天看来已经很是落伍了——你能想象MOSSE甚至没有使用手工特征，而是直接使用像素灰度值举行运算的吗？现在的相关滤波跟踪算法一样平常需要用到CN（Color Names）、HOG（Histogram of Oreinted Gradients）等手工特征以及用CNN提取的特征举行团结从而用于滤波器的学习。

那么，让我们就来简要回首一下由MOSSE衍生而来的一些相关滤波追踪的经典事情：

KCF

KCF[2]（Kernelized Correlation Filter, TPAMI15, F. Henriques et al.）使用循环移位获得的循环矩阵来收罗正负样本，使用循环矩阵在傅里叶空间可对角化的性子，将矩阵的运算转化为元素的点乘，从而降低了运算量，使得算法知足实时性要求。同时，KCF使用多通道HOG特征取代单通道灰度特征，将特征扩展到多通道的非线性特征空间，到达了更高的鲁棒性。KCF的优化方式为加入了正则项的岭回归：

循环矩阵（图片泉源：[2]）

DSST

DSST[3]（Discriminative Scale Space Tracking, BMVC14, M. Danelljan et al.）将关注点更多地放在物体的尺度预计上，将目的的中央平移和目的的尺度转变视作两个自力的问题，在使用HOG特征训练平移相关的CF之外，还使用MOSSE训练了另一个尺度相关的滤波器，用于展望目的尺度的转变。DSST在跟踪的精度和乐成率上都有很大提升，只不外速率相对KCF等慢了一些。

SRDCF DeepSRDCF

SRDCF[4]（Spatially Regularized Discriminative Correlation Filter, ICCV15, M. Danelljan et al.）在KCF优化目的的基础上加入了空域正则化，增强了模子的判别能力，优化目的变为：

为了与KCF举行对比，这里使用了与SRDCF原文差异的符号体现。式中的与w意义并不相同，它是对 w 施加的空间正则化权重。也就是说，某些位置（主要是界线）的滤波器系数会受随处罚。

一样平常 DCF（左）与SRDCF（右）的效果对比（图片泉源：[4]）

将CN/HOG特征换为深度CNN特征后，Danelljan大神做了大量实验举行对比，发现使用CNN浅层特征显着比HOG那些手工特征效果好。于是把自己ICCV15的SRDCF模子改一改随手又发（shui）了一篇ICCV15 Workshop……也就是DeepSRDCF[5]。

差异类型特征的效果对比以及使用CNN差异层的效果对比（图片泉源：[5]）

C-COT

C-COT[6]（Continuous Convolution Operator Tracker，ECCV16, M. Danelljan et al.）使用一种隐式的插值方式将模子的学习投射到一个一连的空间域中，提出了一种在一连空间域上的卷积算子。C-COT将多种分辨率的深度特征举行了高效的集成，使得模子在各个数据集上的性能都获得了很大的提升。

C-COT的特征图、卷积核、各层置信图和融合后一连空间的输出置信图（图片泉源：[6]）

ECO

ECO[7]（Efficient Convolution Operators, CVPR17, How old is M. Danelljan et al.?）则是在C-COT上的进一步提升。首先ECO降低了C-COT的参数目，对特征提取作了降维简化，提升效率、防止过拟合；第二，使用高斯混淆模子天生差异样本组合，简化训练集的同时还增添了多样性；另外，提出了一种高效的模子更新战略，在提升速率的同时还提升了鲁棒性。

C-COT学习后的卷积核与ECO学习后的卷积核（图片泉源：[7]）

现状——孪生网络风生水起SiamFC

目的跟踪领域内，与C-COT同时中了ECCV16的尚有一篇称作《Fully-Convolutional Siamese Networks for Object Tracking》[8]的文章，也就是SiameseFC（或SiamFC）——全卷积孪生网络（L. Bertinetto et al.）。SiamFC虽然不是第一个在目的跟踪领域使用孪生网络的（据笔者所知，第一个使用孪生网络解决目的跟踪问题的是SINT[9]（Siamese Instance Search for Tracking, CVPR16, R. Tao et al.）），但它可以说是开创了端到端深度学习式相关滤波要领的先河，也为深度学习要领逐渐逾越相关滤波要领拉开了序幕。

说了这么多，这个“全卷积孪生网络”事实是怎么个样子呢？请看下图：

SiameseFC（图片泉源：[8]）

（好图呀！不仅画得令人心旷神怡，还很清晰地转达了孪生网络的基本头脑）图中的 φ 就是CNN编码器，上下两个分支使用的CNN不仅结构相同，参数也是完全共享的（说白了就是统一个网络，并不存在孪生兄弟那样的设定）。z和x划分是要跟踪的目的模国界像（尺寸为127x127）和新的一帧中的搜索规模（尺寸为255x255）。二者经由同样的编码器后获得各自的特征图，对二者举行相互关运算后则会同样获得一个响应图（尺寸为17x17），其每一个像素的值对应了x中与z等大的一个对应区域泛起跟踪目的的概率。

SiamFC的离线端到端训练使得CNN模子学习了权衡 x与z的相似性的方式，同时由于很好地使用了GPU的算力，使用AlexNet的SiamFC可以到达65FPS的速率，并保持了不错的准确率，只管跟踪效果还无法匹敌其时的state-of-the-art水平。

在上一步分的树状图中，SiamFC俨然成为Deep Learning分支的最大子分支的根节点。读者可能会问：问什么前边说到的ECO等等也用了CNN，却不在Deep Learning分支下呢？众所周知，深度学习强调一种“end-to-end”的头脑，尽可能地让一个模子去学习从原始输入到最终输出之间的一个完整映射、去寻找一个全局的最优解。只有以这种方式处置赏罚跟踪问题的方案才被归入树状图的Deep Learning分支下。左右两大分支（DL和CF）并非对立关系，DL分支下的许多事情（以SiamFC、SiamRPN为代表）都接纳了相关滤波的思绪，CF分支下的许多事情也使用了CNN作为特征提取器。

SiamRPN DaSiamRPN

就像DSST之前的众多相关滤波跟踪算法一样，SiamFC难以应对物体尺度的转变。SiamRPN[10]（CVPR18, B. Li et al.）则借鉴了目的检测领域常用的RPN（Region Proposal Network，区域天生网络）用于展望新图像中目的的尺度。

SiamRPN在 x和z经由孪生CNN获得各自的特征图后，没有直接对二者举行相互关运算，而是将这两个特征图各自放入RPN部门的两个分支中，每个分支中的两个特征图划分经由一个CNN再举行相互关运算。RPN部门的两个分支划分用于举行目的概率的展望和目的边框的回归，而且同样借鉴了目的检测领域的anchor要领，从而降低了目的边框回归的训练难度。

SiamRPN（图片泉源：[10]）

SiamRPN之后，作者又紧接着提出了刷新版——DaSiamRPN[11]（ECCV18, Z. Zhu et al.），对训练数据举行了增强以提升模子对同种别物体滋扰的判别能力（一样平常的模子往往着重于远景与配景的判别，而对相似物体的判别性较差）。另外，DaSiamRPN加入了增量学习的Distractor-aware模块，在运行时采样并更新模子的参数。使得模子能更好的迁徙到当前视频的域中。

DaSiamRPN在VOT实验上的性能逾越了ECO，同时还能跑到160FPS以上的速率。深度学习单目的跟踪要领可以说得上是“风生水起”。

难题 ——卷积层层难题重重问题

DaSiamRPN在ECCV上揭晓已经是2018年的事情了。这时间，种种名堂的深度CNN早已司空见惯，在深度上更是有几十层到上百层——然而，DaSiamRPN还在使用只有5层无padding的AlexNet。是不是可以实验一下把网络主干换成较量深的残差网络来进一步提高跟踪性能（然后水一篇论文）呢？

笔者还真试了……

不知列位读者有没有注重 SiamFC和SiamRPN中各个特征图的尺寸？在SiamFC中，原尺寸127x127的 z经由了5层AlexNet后获得的特征图已经小到6x6的尺寸，由于没有padding而且经由了一再池化。照这样下去，再加一个池化层和一个3x3卷积层，特征图就要酿成1x1了。显然，想让网络再深一些，padding是不行阻止的。

加了padding，网络简直能够变得很深了（好比说我直接上了YOLOv3的DarkNet-53，甚至还加了特征金字塔），可是新的风暴又泛起了——CNN的平移稳固性变得极差，目的的定位经常往往泛起显着的偏移，模子的对目的的判别能力也不如原版的SiamRPN。满怀信心做实现的笔者看到这样的效果已经准备退学了……

幸运的是，正值此时，笔者无意寓目了一场CVPR19论文分享会的在线直播（该场直播回放可在AI研习社CVPR交流小组审查：https://ai.yanxishe.com/page/meeting/44），发现原来学界的大佬们也在研究怎样把更深的CNN用在目的跟踪上。下面两个登场的事情，划分以差异的方式应对了深度残差网络在目的跟踪问题上的难题。

方案CIR (SiamDW)

SiamDW[12]的作者以为，较深的卷积神经网络的感受域过大，这降低了特征的判别性和定位的准确性。另外，多层的padding使得孪生网络的学习发生偏移。作者对网络主干的种种性子（padding，stride，感受域巨细等）举行了系统性的研究剖析，并得出了以下结论：1)孪生网络跟踪器倾向于更小的stride；2)感受域巨细应取决于目的模板图像 z 的巨细，一样平常 60%到80%最佳；3)stride、感受域巨细和输出响应图巨细相互有很强的依赖，应当配合思量；4)全卷积的孪生网络应当尽可能消除 x 和 z 在感知上的纷歧致性。

针对上述结论，作者提出了CIR（Cropping-Inside-Residial）模块以取代ResNet中的基本模块，基本做法就是下图中每个块的addition之后的crop操作，除去受padding影响的边缘部位。使用CIResNet-22作为主干的刷新版SiamFC和SiamRPN都有了不小的性能提升，只是似乎这样的做法依然无法让网络变得很深？

种种CIR block（图片泉源：[12]）

SiamRPN++

SiamRPN++[13]是SiamRPN的作者在其基础上的刷新。主要刷新有以下四点：1)使用了微调版的ResNet-50主干，极大地优化了特征的提取；2)对ResNet-50的3、4、5阶段的特征划分使用RPN举行边框回归与目的定位，并使用带权重的融合要领团结三者的效果；3)使用了depth-wise相互关运算，镌汰参数目，加速了RPN部门的运算；4)最主要地，提出了一种spatial-aware的采样战略，从而打破了目的跟踪对CNN的严酷平移稳固性限制。

作者剖析以为，只有无padding的网络才具有严酷的平移稳固性，而加深CNN又无法阻止 padding的泛起。可是通过在训练样本中人工加入听从匀称漫衍的随机平移可一定水平上打破这种严酷平移稳固性限制。从模子的展望效果上来看，若是训练数据在一定规模内听从匀称漫衍，那么理想情形下跟踪器展望的效果也应该更靠近匀称漫衍。作者通过定量实验发现，加入像素规模为32的随机平移后，最终获得的目的位置热图更靠近匀称漫衍，说明展望的效果更靠近现实测试目的的漫衍情形。

SiamRPN++（图片泉源：[13]）

加入了以上几点刷新的SiamRPN++成为了OTB2015、VOT2018、UAV123、LaSOT和TrackingNet上的第一名，基于深度学习的要领终于在跟踪准确度上领先一步了。

PS：从这几年顶会的VOT论文数目看，基于深度学习要领也确实领先一步了……

PPS：除了上述的要领之外，基于深度学习的目的跟踪尚有不少值得一提的文章，如MDNet[14]，TCNN[15]，SANet[16]，CREST[17]，VITAL[18]等等，恕不能逐一先容。

PPPS：以上的相关滤波要领中大部门事情都包罗相当重大的数学推导，而本文没有过多涉及，一来本人能力有限，二来篇幅也不宜过长。对其推导有兴趣的同砚请参考原文。

多目的跟踪

问题界说

与单目的跟踪相比，多目的跟踪的研究希望则缓慢得多，可用的数据集不够富厚，可以参考的开源代码也较量少。由于相对来说实现难度更大，多目的跟踪是一个更工程化的问题，深度学习在该问题上的潜力也尚未被很好地挖掘出来。

一样平常提到“视觉目的跟踪”或“VOT”，往往指的是单目的跟踪。只管看起来SOT（Single Object Tracking）和MOT（Multi Object Tracking）只是目的数目上的差异，但它们通用的要领现实上截然差异。从研究工具上讲，单目的跟踪算法一样平常是不限类此外，而多目的跟踪一样平常是仅针对特定类此外物体。从时长上讲，单目的跟踪更多地针对短时间的图像序列，而多目的跟踪一样平常要处置赏罚较长的视频，其中涉及各个目的的泛起、遮挡和脱离等情形。从实现思绪上讲，单目的跟踪更关注怎样对目的举行重定位，而常见的多目的跟踪要领往往更多地关注怎样凭证已检测到的目的举行匹配。

凭证初始化方式，常见的多目的跟踪算法一样平常可分为基于检测的跟踪（Detection-Based Tracking）和无检测的跟踪（Detection-Free Tracking）。DBT要求由一个目的检测器首先将每帧图像中的目的检测出来，而DFT要求已知每个目的首次泛起的位置，再对每个目的划分举行跟踪（这一点可以看作是在统一个视频中举行的多个单目的跟踪）。显然，前者的设定更靠近现实应用场景，也是学界研究的主流。

凭证初始化方式分类。上：基于检测的跟踪；下：无检测的跟踪（图片泉源：[29]）

凭证处置赏罚方式，多目的跟踪算法又可分为在线跟踪（Online Tracking）和离线跟踪（Offline Tracking）。在线跟踪要求处置赏罚每一帧时，决议当前帧的跟踪效果时只能使用当前帧和之前的帧中的信息，也不能凭证当前帧的信息来修改之前帧的跟踪效果。离线跟踪则允许使用之后的帧的信息从而获得全局最优解。显然，离线追踪的设定也不太适合现实应用场景，可是以一种“batch”的形式举行的离线跟踪（每次获得若干帧，在这些帧中叱责局最优）也是可行的，只是会导致一点延迟。

凭证处置赏罚方式分类。上：在线跟踪；下：离线跟踪（图片泉源：[29]）

典型要领

以下是多目的跟踪领域一些较量基础但很典型的事情。

SORT DeepSORT

SORT[19]（Simple Online and Realtime Tracking, ICIP16, A. Bewley et al.）是主流的Tracking-by-Detection框架（检测-编码-匹配-更新）的一个雏形，后边的许多事情都有类似的框架。SORT有四个基本组件：目的检测器、状态展望、数据关联和track治理——这也是许多遵照 Tracking-by-Detection框架的多目的跟踪算法的基本组件。

SORT使用VGG16主干的Faster R-CNN作为目的检测器。对于目的的状态，SORT简朴地使用中央坐标、面积、长宽比以及它们的转变率对目的举行建模（如下式），而没有使用任何外观信息。SORT使用Kalman滤波器自动地对目的之后的状态举行展望，并将展望的效果与现实检测到的目的边框举行匹配。track与detection的关系被视作二分图，二分图的每一条边的权重由它的两个极点（划分为一个track和一个detection）的IOU界说。SORT使用匈牙利算法在这个二分图中寻找最优匹配，并为匹配设置最小IOU阈值，以镌汰错误的匹配数目。

关于track的治理上，SORT将匹配失败的track保留帧，为匹配失败的detection开启新的track并设置其初始状态。

DeepSORT[20]（Simple Online and Realtime Tracking with a Deep Association Metric, ICIP17, N. Wojke, et al.)是SORT作者基于SORT的刷新版本，其最大的孝顺在于使用了深度CNN提取目的的特征以作为匹配尺度。DeepSORT使用Mahalanobis距离作为运动特征的相似度尺度，以及余弦距离作为外观特征编码的相似度尺度，两种相似度通过加权平均来获得总体的相似度。另外，DeepSORT界说了一种级联式的匹配要领，使得近期活跃度较高的track被优先匹配。

只管 DeepSORT已经是2017年的算法了，但似乎MOT16使用果真检测的排行榜上占有首位的依然是DeepSORT的复现版…

IOU Tracker V-IOU Tracker

IOU Tracker[21])（AVSS17, E. Bochinski, et al.）的基本头脑是：若是帧率足够高、检测效果足够好，前后两帧各个目的边框之间的IoU（Intersection Over Union）即可作为关联的强盛依据。在这样的设定下，IOU Tracker不思量外观信息、差池运动轨迹举行展望、也不使用重大的匹配算法，直接用贪心的战略为两帧的所有边框之间举行匹配。详细而言，在处置赏罚每帧时，对每一个正在跟踪的目的，从检测到的框中取一个与它之前位置之间的IOU最大的一项，若这项IOU大于阈值则以为二者匹配，否则匹配失败。若是某一个tracklet匹配失败，则以为目的脱离（是的，甚至不思量检测器不小心检测失败的可能性），凭证它“存活”的时长和置信度决议是否加入“已完成的track”中。若是存在没有匹配到tracklet的检测框，则以为是新泛起的目的并为之建设一个新的tracklet。

IOU Tracker（图片泉源：[21])）

可是！把希望全寄托于目的检测器是不行的。以是作者一年之后又推出了V-IOU Tracker[22])（AVSS18, E. Bochinski, et al.）。一方面，当一个tracklet无法匹配到响应的检测框时，不再简朴地以为目的脱离了视野，而是在此时启动一个单目的跟踪器来实验继续跟踪这个目的，直到 ttl(Time to Live）时间之后。另一方面，当一个新tracklet被建设时，先启动一个单目的跟踪器实验在之前的ttl 帧中寻找该目的。若是新的tracklet和已完成的track能够通过IOU匹配起来，就将他们合并处置赏罚。（如下图中的红色箭头，注重其偏向）

V-IOU Tracker（图片泉源：[22])）

加入了单目的跟踪模块后，设计简朴的V-IOU Tracker在MOT Challenge排行榜上也能取得不错的效果。

MOT-RNN

作为使用深度学习解决MOT问题的一次实验，Anton Milan等大佬提出了使用RNN举行目的状态展望与数据关联的要领——MOT-RNN[23]（MOT using RNN, AAAI2017, A. Milan et al.）。这也是第一篇实验以端到端的方式完成在线多目的跟踪的文章。

目的的状态展望是一个一连空间的问题，而数据关联又是一个离散空间的问题，怎样把这两个问题放到神经网络里做确实是一个让人头疼的问题。尤其是数据关联问题存在着诸多限制，好比需要知足输出的效果不得泛起一对多的情形。作者以为，LSTM的非线性转变以及它强盛的影象能力使得这些限制也能通过学习而知足。

遗憾的是，只管基于RNN的要领的速率远快于大部门同类要领，它的跟踪效果与先进的要领相比相形见绌。MOT-RNN可以举行进一步完善的点有许多，好比很主要的目的的外观建模，以及怎样将检测器也加入可优化的部门。

左：用于目的状态展望的RNN；右：用于数据关联（匹配）的LSTM（图片泉源：[23]）

后续的事情中，陆续泛起了一些同样实验使用神经网络解决多目的跟踪问题的要领（不包罗使用CNN做目的检测），如JDT（简称是我瞎起的）[24]，DMAN[25]，DeepMOT[26]，TBA[27]，TAMA[28]等等。只管性能上还与基于传统算法的要领有不小的差距，但其要领的创新值得勉励与学习。

一点闲话：现实上，多目的跟踪尚有一个更重大的问题——多相机多目的跟踪（MTMCT，Multi-Target Multi-Camera Tracking）[30]。今年的四月份，笔者还在加入DukeMTMCT CVPR Workshop Challenge。不幸的是，由于某些不行控因素，这场角逐的测试集无法宣布，角逐也只能中止。不仅云云，已经果真的DukeMTMC训练集也下线了，甚至[30]的作者Ergys Ristani在Github上的DeepCC代码也被删除。刚从单目的跟踪研究失败的阴影中走出来意气风发精神百倍甚至已经最先拿DukeMTMC训练模子的笔者又发生了卷铺盖退学的想法（捂脸）……DukeMTMC即便拆脱离来作为八个单相机多目的跟踪的数据集，也是一个相当高质量、大规模的数据集了。若是类似这样的数据集能够多起来，拥有了数据量加成的多目的跟踪研究又会是怎样一幅情形呢？