在这里插入图片描述
论文链接:https://arxiv.org/abs/1909.07755
论文代码:https://github.com/markus-eberts/spert

1 摘要

我们引入了一个用于基于spaner的联合实体和关系提取的关注模型 SpERT。我们的关键贡献是对BERT嵌入的轻量级推理,其特征是实体识别和过滤,以及使用本地化的、无标记上下文表示的关系分类。该模型使用强句内负样本进行训练,这些负样本在单次BERT中被有效地提取出来。这些方面促进了对句子中所有跨度的搜索。在消融研究中,我们证明了预训练、强负采样和局部环境的好处。在联合实体和关系提取方面,我们的模型在几个数据集上的表现比之前的工作高出2.6% F1分。

2 介绍

提出了一种以变压器网络BERT为核心的联合实体和关系提取模型。采用基于span的方法:任何标记子序列(或span)构成一个潜在的实体,任何一对span之间都可以保持关系。我们的模型对所有这些假设进行了全面的搜索。与之前基于BIO/BILOU标签的研究不同基于spanbased的方法可以在“可待因中毒”中识别重叠的实体,如“可待因”。由于变压器模型像伯特计算昂贵,我们的方法只进行一个传球前进每输入句子并执行一个轻量级的推理结果嵌入,与近期其他方法,我们的模型特征一个简单得多的下游加工使用浅实体/关系分类器。我们使用不使用特定标记的本地上下文表示,并在单个BERT传递中从相同的句子中提取负样本。这些方面促进了有效的培训和全方位的搜索。我们创建了模型“基于span基实体和关系转换器”(SpERT)。总而言之,我们的贡献如下:

  • 提出了一种基于spans的联合实体和关系的提取方法。我们的方法看似简单但有效,始终比之前的工作多出2.6%(关系提取F1得分)
  • 我们调查了几个对我们的模型成功至关重要的方面,表明(1)来自同一个句子的负样本产生的训练是既高效又有效的,而且足够多的强负样本显得至关重要。(2)局部上下文表示是有益的,特别是对于较长的句子。(3)我们还研究了预训练的效果,表明对预训练模型进行微调,比从零开始训练的效果更好。

3 相关工作

3.1 Joint Entity and Relation Extraction

由于实体检测和关系分类可能受益于利用相互关联的信号,联合检测实体和关系的模型最近引起关注(例如[3,2,21,31,40,16])。大多数方法通过序列到序列学习来检测实体:每个标记都根据众所周知的BIO方案(或其BILOU变体)进行标记。
与我们的工作更相似的是Li等人[18]最近的方法,他们也将BERT作为他们的核心模型,并使用一个问题回答设置,其中实体和关系特定的问题引导模型的头和尾实体。该模型需要每个关联手动定义(伪)问题模板,例如“找到[?]拥有的武器”。实体通过基于BERT嵌入的基于双侧类型标记的关系标记来检测。与此方法相反,我们的模型不需要明确的问题表述。此外,我们的方法是基于span-based而不是BILOU。

3.2 Span-based Approaches

最近,一些针对联合实体和关系提取的基于span-based模型被提出[20,9],使用来自于连接ELMo的BiLSTM的span表示,单词和字符嵌入。然后在下游任务之间共享这些表示。Dixit和al - onaizan[9]侧重于联合实体和关系提取,Luan等[20]对假设空间进行波束搜索,估计参与实体类、关系和共参照的跨度。
Luan等人的后续模型DyGIE[21]增加了一个图传播步骤来捕捉跨度的相互作用。构造了一个动态跨度图,在此图中使用学习的门控机制传播嵌入。使用这种细化的跨度表示,进一步的改进被证明。最近,Wadden等人的DyGIE++[34]已经用BERT取代了BiLSTM编码器。DyGIE++是唯一的基于变流器的跨度方法,用于联合实体和关系的提取。与DyGIE和DyGIE++相比,我们的模型使用了更简单的下游处理,省略了任何图传播,使用了较浅的实体和关系分类器。相反,我们发现局部上下文表示和强负抽样至关重要。我们在实验部分加入了与DyGIE++的定量比较。

4 模型架构

模型主要由 span classification 、 Span Filtering 和 relation classification 三部分组成。 span classification 和 Span Filtering 对实体进行筛选和识别,relation classification 进行关系抽取。模型架构如图所示:
在这里插入图片描述

4.1 Span Classification

我们的span分类器采用一个任意的候选span作为输入。设s:= (ei,ei+1,…,ei+k)表示该张成空间。此外,我们假设E是一组预定义的实体类别,如person或organization。span分类器将span s映射到E∪{none}中的一个类。none表示不构成实体的跨度。span分类器的详细信息显示在图1的虚线框中(参见步骤(a))。它的投入包括三个部分:

  • 张成空间的BERT嵌入(红色)使用融合f(ei,ei+1,…,ei+k)组合。对于融合函数f,我们发现max-pooling的效果最好,但将在实验中研究其他选项
  • 给定跨度宽度k+1,我们从一个专用的嵌入矩阵中查找一个宽度嵌入wk+1(蓝色),它包含一个固定大小的嵌入,每个跨度宽度为1,2,…[14]。这些嵌入是通过反向传播来学习的,并且允许模型在跨度宽度上合并一个先验(注意跨度太长不太可能表示实体)。

4.2 Span Filtering

通过查看得分最高的类,跨度分类器的输出(方程3)估计了每个跨度属于哪个类。我们使用一种简单的方法过滤分配给none类的所有span,只留下一组spans,它们可能构成实体。注意不像以前的工作这次是没有对实体/关系假设执行光束搜索。我们预先过滤跨度超过10个标记,将跨度分类的代价限制在O(n)。

4.3 Relation Classification

设R是一组预定义的关系类。关系分类器处理从S×S中抽取的实体的每个候选对(s1, s2),并估计是否存在来自R的关系。分类器的输入包括两部分:

  • 为了表示两个候选实体s1、s2,我们使用融合的BERT/width embeddings e(s1),e(s2) (Eq. 1)。
  • 显然,上下文中的词汇,如配偶或总统,是表达关系的重要指标。一种可能的上下文表示方法是分类器标记c。然而,我们发现c不适用于表达多种关系的长句子。相反,我们使用从实体的直接周围提取的更本地化的上下文:给定从第一个实体结束到第二个实体开始的范围(图1,黄色),我们通过最大池化将其BERT嵌入组合起来,获得上下文表示c(s1, s2)。如果范围是空的(例如,在重叠实体的情况下),我们设置c(s1, s2) = 0。
    除了实体特征以外,关系抽取也要依赖文本特征。由于特殊标记CLS有文本分类的作用,关系抽取的模型架构往往会使用CLS所代表的词向量作为关系抽取的输入之一。而在本文中,并没有选择CLS作为文本特征,而是对于两个实体之间的文本进行了最大池化 ,得到了文本特征的向量表示 c(s1,s2) 也就是模型图中黄色的部分。如果两个实体之间没有文本,那么 c(s1,s2) \mathbf 将被设置为0 。
    至此,我们得到了关系的向量表示,由于关系往往是非对称的,所以每一个实体对将会得到两个关系表示。公式如下:
    在这里插入图片描述
    接下来这两个关系将会过一个全连接后再用一个sigmoid激活,公式如下:在这里插入图片描述
    最后,模型的损失是实体分类损失与关系分类损失之和,公式如下:
    在这里插入图片描述
    至此,模型整体的架构已经比较清楚了。

5 实验

将SpERT与其他联合实体/关系提取模型进行了比较,并研究了多个超参数的影响。评估是在ADE、CoNLL04和SciERC三个公开的数据集上进行的。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
虽然SpERT在联合实体和关系提取方面取得了很好的结果,但我们观察到一些常见的错误,这为进一步的研究留下了空间。
在这里插入图片描述

6 总结

我们提出了一个基于spans的联合实体和关系提取模型SpERT,它以预先训练好的变压器网络BERT为核心。我们证明,通过强负抽样、跨度过滤和本地化上下文表示,在输入句子中搜索所有跨度成为可行的。我们的结果表明,基于spanbased的方法与基于bilo的模型相比具有竞争力,并且由于其识别重叠实体的能力,可能是未来研究中更有前途的方法。在将来,我们计划为关系分类器研究更精细的上下文形式。目前,我们的模型只是使用了两个实体之间的跨度,这被证明比整个上下文更好。使用额外的语法特性或学习的上下文——同时保持高效的穷举搜索——似乎是一个有希望的挑战。

Logo

尧米是由西云算力与CSDN联合运营的AI算力和模型开源社区品牌,为基于DaModel智算平台的AI应用企业和泛AI开发者提供技术交流与成果转化平台。

更多推荐