A Novel Cascade Binary Tagging Framework for Relational Triple Extraction

· 解决多个关系三元组共享相同实体的重叠三元组问题

· 引入一个新的视角来看待关系三元组抽取任务，一个新的级联二进制标记框架（CASREL）

CasRel框架

==直接对三元组进行建模，并在三元组的层次上设计一个训练目标==，而不是递进的去建模

这里，我认为作者在将整个式子就是将获得注释句子中正确的三元组的概率，打碎，成为了获得句子中正确的主语s、在包含s的句子中，获得与关系相符的宾语的概率、在包含s的句子中，获得与关系不相符的宾语的概率的概率拼接，为作者提出的主语宾语的函数做提前准备。

效果：

主语标记器与宾语标记器以==深度双向变压器BERT上的二进制标记器(binary taggers on top of a deep bidirectional Transformer BERT)==

“似然性”（likelihood）和“概率”（probability）意思相近，都是指某种事件发生的可能性。在统计学中，似然性”和“概率”又有明确的区分，概率用于在已知一些参数的情况下，预测接下来的观测所得到的结果，而似然性则是用于在已知某些观测所得到的结果时，对有关事物的性质的参数进行估计。

经常会有文章提到先验概率，后验概率及似然概率，他们的意思可以这么理解：

1. 先验——根据若干年的统计（经验）或者气候（常识），某地方下雨的概率；

2. 似然——下雨（果）的时候有乌云（因/证据/观察的数据）的概率，即已经有了果，对证据发生的可能性描述；

3. 后验——根据天上有乌云（原因或者证据/观察数据），下雨（结果）的概率；

==例句：Jackie R. Brown Was Born In Washington, The Capital City Of United States Of America.== 在low level中可以检测出3个主语，在high level中可以实现对主语[Jackie R. Brown]打上0/1标记，上图为k=1时的状态。对于

BERT Encoder（BERT编码器）

使用一个预先训练的BERT来编码上下文信息

· S：输入语句中子词的独热向量矩阵

· WsW_sWs：词嵌入矩阵

· WpW_pWp：位置嵌入矩阵

· hαh_\alphahα：隐藏态向量，即句子在第α\alphaα层的上下文表示

· N：Transformer的块数

Cascade Decoder（级联解码器）

主要思想：首先，从句子中检测主语。然后对于每个候选主语，找到所有可能的关系，判断这个关系是否能够将句子中的宾语与这个主语联系起来。【（2）（3）式】，由上图所示的两个模板构成，==Subject Tagger==，==Realation-Specific Object Taggers==

Subject Tagger

根据起始和结束位置标记器的结果来确定任意目标的跨度。第一个开始令牌Jackie，最近的结束令牌Brown，得出第一个主题跨度的检测结果是Jackie R.Brown。由此可以保证任何实体跨度的完整性。（匹配结束令牌时，不会考虑开始令牌前面的令牌）

参考文章链接：

· 带你深入理解期望、方差、协方差的含义

· 概率统计与机器学习：期望，方差，数学期望，样本均值，样本方差之间的区别

· 机器学习中的数学——常用概率分布

Relation-specific Object Taggers（特定于关系的宾语标记器）

比如说：对于Work_in，Jackie R.Brown和Washington之间没有关系，则不会标记该跨度，即开始和结束的位置都标为0。对于Born_in，Jackie R.Brown和Washington之间有关系，则该宾语标记器输出候选对象Washigton的跨度。 ==因此，high level模块能够同时识别与在low level中得到的主语有关的宾语和关系==

Data Log-likelihood Objective

实验结果

心得总结

本文的最大亮点是绕开过去的方法——将关系建模为实体对的离散标记。==而是将关系抽象为主语与宾语的函数==，进而解决了重叠问题。目前joint方法基本就是魔改各种tag框架和decoding方式。但是，目前还是在概率论知识上有所欠缺，不能理解为什么作者用这些公式，和这些式子的效果。因此还是需要进一步补数理基础与机器学习基础。

实体关系抽取-3-灵析社区