2018CVPR之RASNet

2018的CVPR
浏览过五六篇的2018CVPR tracking的工作介绍
个人感觉这篇质量还不错
自己其实也有很多想法
这篇文章让我的想法有了另一种实现方式

这里写图片描述

注意力机制

这里写图片描述
本质就是给相关运算进行加权运算
这里写图片描述
而加权运算被分解成了三个attention mechanisms进行参数剪枝
参数从mnd减少为m*n+d

  1. 通道注意力β
        (类似SEnet)这个部件今年很多文章都有提到

  2. 对偶注意力(dual attention)
        (1) general attention
          这个注意力要满足中心位置权重大于周围位置,例如高斯分布
          实际上是使用了target在目标图像的中心位置的先验知识
        (2) residual attention
          dual attention = general attention + residual attention
          第一个注意力使用了先验,而第二个注意力用于微修general attention

个人感觉dual attention的机制还是很棒的,一般残差拟合的难度小于整体拟合
这里其实还有办法利用一些先验给search area使用attention mechanism
这就属于个人idea了hh

离线预训练

作者利用ILSVRC15比赛的数据集进行预训练
对于每个target 选择target时刻i的图像,以及和时刻j的帧组成一个samples进行加权拟合
权重公式如下 时间相差越近,权重越高

这里写图片描述

details

  1. 注意力权重的推断仅在第一帧进行,接下来一直使用同一个注意力权重有助于高速推断
  2. 离线预训练中的样本对从相邻的100帧中选取
  3. 尺度搜索选择了3个尺度,尺度缩放比例为1.03