NAACL2018 best paper ELMo

ELMo 是NAACL2018的best paper
早就想读了了,攒着一直没读…

其实nn的文章看图能识个大概了,接着再细读其中细节
但这篇文章没图…

下面上一张自制的

ELMo结构与使用方式

这里写图片描述

如图,上面是ELMo的使用方式
将模型中word在LSTM中输出的中间态作为他的embedding

这里写图片描述
他自己则是一个多层双向语言自监督模型
正向预测和逆向预测word作为task,进行训练
这里写图片描述

这种设计个人认为有如下几点好处

  1. word在不同语境有不同意思,使用LSTM中间状态带入了上下文信息解决了语义歧义的问题
  2. biLSTM相比Glove,word2vec带入了语序信息
  3. biLSTM能捕捉一定的语法结构信息

使用方式

冷冻biLM模型
将他各个中间层的信息加权平均,再和普通的词向量concat
公式如下
这里写图片描述

stask是可训练且经过softmax归一化的权重
stask用于在不同任务下自适应调整高维还是低维的抽象信息
γ是缩放因子,对模型影响较大,可训练