貌似有人把跟踪(tracking)和计算机视觉中的目标跟踪搞混了。前者更偏向数学,是对状态空间在时间上的变化进行建模,并对下一时刻的状态进行预测的算法。例如卡尔曼滤波,粒子滤波等。后者则偏向应用,给定中第一帧的某个物体的框,由算法给出后续帧中该物体的位置。最初是为了解决检测算法速度较慢的问题,后来慢慢自成一系。因为变成了应用问题,所以算法更加复杂,通常由好几个模块组成,其中也包括数学上的tracking算法,还有提取特征,在线分类器等步骤。在自成一系之后,目标跟踪实际上就变成了利用之前几帧的物体状态(旋转角度,尺度),对下一帧的物体检测进行约束(剪枝)的问题了。没错,它又变回物体检测算法了,但却人为地把首帧得到目标框的那步剥离出来。在各界都在努力建立end-to-end系统的时候,目标跟踪却只去研究一个子问题,选择性无视"第一帧的框是怎么来的"的问题。我想,目标跟踪的下一步应该是成为目标检测的一步,充分利用物体特性,建成一个中目标检测的大系统,而不是自成体系,只在自己的小圈子里做研究。答主并非是做目标跟踪方向研究的,但导师在博士期间是做的这个方向,因此也跟着有所涉猎。先匿了,如果有说的不对的地方,还请指正。