这篇文章内容本身其实蛮少的
但是意义还是较为重大的
整篇文章唯一的创新点大概在序列标注的标记模式
(1)-(2)-(3)
(1)内容使用BIES模式标记实体Begin, Inside, End,Single
(2)内容使用类别标记实体类别
(3)标记实体的在一对关系中的起始和终止位置
就近原则组合(2)相同,且(3)分别为1,2的实体
下面是模型部分
直接看图就好,没什么创新点
这是loss
就是负类正类权重不一样,也没什么好讲的
这种方式效果也较为不错
但是弊端也较为明显,对关系重叠问题解决不太好
解决方式也很简单,多分类改成多标签分类就好了
还有一个貌似对句子拆分要求较高。
讲讲我做序列标注任务的几点感受
对padding十分敏感
sota说是crf+lstm
其实应该是双层lstm+crf
后面太慢了不过可以用cudnn加速版配自己写的mask zero