数据增广思考

魔镜杯中第二名的数据增广使用了mixup
但词向量空间是否满足和图像一致的插值的性质值得深思
下面是自己的一些收货

从答辩情况来看,数据增广成功的只有三个人
第一第二以及yin叔

首先是样本生成方式
第一没有明说他的方式
第二介绍了mixup
yin叔则直接利用了相似问题对的稀疏性,断言生成的样本不匹配

yin叔的方式确有理论保证性,
随便估计一下如果官方给的78w个问题中共有10000类
以这个计算约两万个样本中只有一个正例 …
可见生成的样本label噪声很小

而mixup不敢笃定
图像的数据增广里mixup虽不易证明
但是其生成的样本结果肉眼可得到其label也是线性组合

词向量空间是否满足此性质不知
第二的大致思路是
q1,q2相似,q2,q3不相似
则q1+q2与q3仍不相似
似乎没有生成正样本
这里难以确定到底是正样本的稀疏性带来的收益还的确是mixup
不过不能再提交了,我猜是稀疏性…
不过第二好像和yin叔吐槽没啥效果 (所以说mixup并没有成功?到底有无收益?做成的变成2个人?)
不过看过来第二的确似乎是堆了多种模型给他带来的收益
从我们一直使用一种模型来看,最后一天使用了两个结构比较相似的模型却带来了巨大的收益
模型结构差异带来的收益可能更为显著

其实以上都不是重点
我也做了很多数据增强
yin叔的那种方式我也做了
都会过拟合…

但还有一个值得注意的地方
前排和yin叔数据增强的方式都是先用原有数据集训练
再从生成的数据集上进行微调

而我要么是放入训练集一起训练
要么是先用生成的样本获得权重…

反过来会成功的原因有待深究…

这次比赛和yin叔探讨中还获得了一个很有价值的东西
我使用prob label过拟合的原因似乎不知道,线下涨两个百分点,线上掉三个千分点
但是yin叔在一个预估用户评分的任务中给label加了高斯噪声成功了

他的任务可以很清楚的看到label本身噪声很大
给label加高斯噪声并无多大影响,反而能控制过拟合

数据增强的几个trick论文一览

label加噪的论文在此,效果较为显著
DisturbLabel
https://arxiv.org/pdf/1605.00055v1.pdf
label加噪也可以认为是一种数据增广的方式

MixUp论文
https://arxiv.org/pdf/1710.09412.pdf

数据增强之CutOut
https://arxiv.org/pdf/1708.04552.pdf