2018CVPR之siameseRPN

模型结构

这里写图片描述

Siamese FC

使用AlexNet去掉conv2和conv4
所有卷积不使用padding

Region Proposal Network

其实看过faster rcnn 和 siamese fc还是一下子就能理明白的

  1. 模板帧用卷积抽成4×4×(2k×256)个代表k个anchor+前背景分类
  2. 模板帧用卷积抽成4×4×(4k×256)个代表k个anchor+坐标回归
    然后模板帧的特征图与检测帧的做相关运算进行匹配
    其中anchor比例为[0.33,0.5,1,2,3]

其中回归分支的需要,一些仿射变换用于做数据增强
然后proposed至少筛选16个正例,总共64个样本
正例IoU阈值为0.6,负例为0.3

然后loss照搬faster rcnn

one-shot detection

检测应用到追踪即为one-shot detection问题

推断

模板帧在第一帧推断后就不再更新了

  1. 第一帧的特征更鲁棒
  2. 速度快,nn慢就是因为要迭代bp
    所以这需要大量的数据进行预训练获得通用化的特征

proposal selection

  1. 不选取中心位置离当帧超过七个像素的anchor
  2. 给模型的分类置信度加penalty,其中k是超参,r和s分别代表了尺寸和面积,衰减尺度面积变化过大的anchor
    这里写图片描述
  3. 选K个分类置信度最高的,进行NMS抑制
  4. 最终尺度选定后使用线性插值进行平滑改变

other details

使用VID和Youtube-BB数据进行离线训练
每次训练模板帧和检测帧之间的时间间隔不超过100帧