统一三类任务(flat、overlapped、nested NER)的处理
span-based 的方法 只关注边界识别。
sequence-to-sequence 的模型有暴露偏差的影响
下面先介绍本文的方法思想。

作者对统一的NER任务进行了介绍:

就是将三种NER统一成一个 token pairs 的关系抽取任务。(相当于将这个NER的任务转换成了关系抽取的任务。)这里的关系预定义了三种:None, Next-Neighboring-Word, Tail-Head-Word-*。那么就详细介绍一下这三种关系代表啥意思:
上面讲了本文的主要方法思想,下面就看下本文的提出的模型的架构:

该模型主要分成三部分:
看下这个CLN是啥,
word-pair 的 grid是一个3维的矩阵。对于word pair
(
x
i
,
x
j
)
(x_i,x_j)
(xi,xj) 的表示
V
i
j
V_{ij}
Vij 可以被认为是x_i 的表示 h_i 和 x_j 的表示的拼接。根据CLN这个方法来计算
V
i
j
V_{ij}
Vij

这个CLN 有啥用?为啥要用这个?
受BERT的三个输入embedding 启发,作者这里使用了是三个word embedding。其中 V 表示词向量, E d E^d Ed表示相对位置信息(每对words), E t E^t Et表示region information 用于区分出是上三角、下三角区域。然后交由一个MLP做映射处理。
接着 Multi-Granularity Dilated Convolution
受TextCNN启发,使用多个2维空洞卷积。用于捕捉不同距离间的词交互。
略~