实体关系抽取-7-灵析社区

算法无限

==过去的步骤:==

1. 寻找头尾实体的边界位置(实体识别)

2. 将特定令牌串联成三元组(关系分类)

存在误差累计问题,每个实体边界识别误差会累积到最终的组合三元组中

==论文中的方法:== 先通过枚举句子中的令牌序列生成候选实体,然后将三元抽取任务转化为"头->尾"二部图上的连接问题。

基础准备

名词解析:

1. 令牌序列:令牌是自然语言的基础。令牌化是一种将文本分成称为令牌的较小单元的方法。在这里,令牌可以是单词,字符或子单词。因此,标记化可以大致分为3种类型:单词,字符和子词(n-gram字符)标记化。

2. 重叠模式EntityPairOverlap(EPO) 一个实体对具有多种关系 SingleEntityOverlap(SEO) 两个三元组共享一个重叠的实体 HeadTailOverlap(HTO) 三元组的头部实体和尾部实体部分或完全重叠

==现有的联合抽取方法:==

1. 序列标注 :即给定一个输入序列,使用模型对这个序列的每一个位置标注一个相应的标签,是一个序列到序列的过程。(使用各种标记序列来确定实体的开始和结束位置,有时还包括关系)

2020用序列标记来识别句子中的所有实体,然后通过各种网络进行关系检测 2021用一个预测潜在关系的组件,约束到预测的关系子集,而不是所有关系 2022提出双向实体提取框架,考虑头尾和尾头的提取顺序、约束条件

1. 表格填充 :为一个句子构造一个表,并用对应的正确的标记填充每个表单元格

2019通过关系加权图卷积网络来考虑实体和关系之间的作用 2020三元组抽取转化为令牌对链接问题,引入特定于关系的握手标记方案对其实体对的边界令牌 2021利用一个分区过滤网络,该网络生成任务特殊特征,用于建模实体识别和关系分类之间的交互

1. 文本生成:将三元组作为令牌序列,病采用编码器-解码器结构来生成像机器翻译一样的三元组元素

2018用复制机制生成两个对应实体所遵循的关系,但只能预测实体的最后一个单词 2020使用多任务学习框架解决多令牌实体问题 2021一种带有生成变压器的对比三元组提取方法解决长期依赖问题 2021设计一个二进制指针网络来提取显式三元组和隐式三元组

==文中的方法:==

暴力方法: 穷举一个句子的令牌序列,结果是肯定会包含正确的实体 因此:看是否存在关系,可以直接识别三元 通过枚举令牌序列生成候选实体 为每个关系设计一个链接矩阵来检测两个候选实体是否可能构成有效的三元组 三元组的提取转化为一个关系特定的二部图链接问题

方法详解

1. 候选实体生成

例子: 枚举句子中所有长度小于C(C<L)的连续令牌作为候选实体,若C=2 “Beijing is the capital of China“ E = { “Beijing”, “Beijing is”, “is”, “is the”, “the”, “the Capital”, “Capital”, “Capital of”, “of”, “of China”, “China”}.

缺点:

1. 负三元组占主导地位,训练偏向负三元组,会降低识别正三元组的能力

2. 训练句子多,所以训练效率低

2. 二部图链接

为实体通常由多个令牌组成,为了便于并行计算,需要保持不同实体表示的维度一致

实验

使用了NYT与WebNLG数据集进行实验

NYT:将FreeBase中的相关事件与纽约时报语料库对其,包含56k个训练句子和5k个测试句子 WebNLG:最初为自然语言生成开发,从给定的三元组生成相应的描述,包含5k个训练句子和703个测试句子 NYT*表示只注释实体的最后一个词的版本,NYT注释了整个实体,webNLG同理 采用Precision(Prec.),Recall(Rec.),F1-score(F1)评价性能,只有当头部h,尾部t和关系r是与事实完全一致时视为正确的

样本本身预测模型
TP
FP
FN


主要结果: F1得分优于所有其他模型

详细结果: 通过重叠模式和三元数拆分了NYT和WebNLG的测试集 第一,它有效地缓解了误差积累问题,保证了提取三元组的==精度==。 其次,在每个实体对之间采用特定于关系的链接,保证了三重抽取的==召回性==。

在两个子任务上的性能试验对比,选择了PRGC(最先进的三元模型之一,在关系判断和头尾对齐方面很强)

在WebNLG上的不足之处:跨度分裂错误、未找到实体和实体角色错误。 “跨度分裂误差”所占比例相对较小,证明了在一个有向的“头→尾”二分图上通过链接预测直接提取三元组的有效性。 “实体角色错误”最具挑战性。 其主要原因是在三重提取过程中忽略了实体的上下文信息。

阅读量:2039

点赞量:0

收藏量:0