2018CVPR之Visual Question Answering with Memory-Augmented Networks阅读笔记

需求所致简单入门一下vqa

Sequential Co-Attention

如图所示
这是16年11月份一个序列协同注意力结构

这里写图片描述

直接放公式吧

这里写图片描述
这里写图片描述
这里写图片描述

思路比较简单
{qt} question(word sequence)
{vn} 是通过一个backbone后再reshape的”区域”序列
如vgg16 -> 1616512 -> 256*512 每个像素代表一个区域

然后对图片的每个区域以及question的每个时间步做相关性计算
获得注意力权重加权….

Memory Augmented Network

这里使用了Memory Network
是本文的创新点貌似

用(xt,yt)代表一个样本
t表示样本喂给模型的顺序

以LSTM 作为Memory Net的controller
ht = LSTM(xt , ht-1)
每次基于内容寻址
将ht与所有记忆单元计算相似度
这里写图片描述
然后用softmax规范化相似度作为权重
这里写图片描述
加权获得历史信息
这里写图片描述
与ht拼接放入分类网络

更新历史信息单元
这里写图片描述
结束

结语

作为一个放入VQA的小萌新
刷了几篇感觉好像比我想象中的要easy很多