主要介绍背景知识。
基于BERT的关系抽取
R-BERT (Wu and He, 2019)利用BERT生成上下文化的词表示,以及实体信息来进行监督学习关系抽取,并已显示出良好的结果。
BERT- PAIR (Gao et al.,2019)利用训练前的BERT句子分类模型进行few-shot关系抽取。通过将每个查询句与支持集中的所有句子进行配对,通过预先训练的BERT得到句子之间的相似度,进而用few-shot实例对新类进行分类。
这些模型的目的是解决一般的关系抽取任务,这些任务或多或少具有ground truth,而不是在zero-shot设置下。
基于零样本的关系抽取
Levy等人(2017)将zero-shot关系提取作为问答任务。他们手工定义了10个问题模板来表示关系,并通过训练一个阅读理解模型来回答哪个关系满足给定的句子和问题,从而产生预测。但是,需要人为定义不可见的关系的问题模板,这样才能执行ZSL。通过领域知识进行这样的注解是不可行的——当更多看不见的关系出现时,在实际是不可能的。相反,ZS-BERT的数据需求相对较轻。对于每个关系,本文只需要一种描述来表达语义意义。关系的描述更容易收集,因为本文可以从开放资源中获取它们。在这种情况下,本文可以不必为注释付出额外的努力。
OObamuyide和Vlachos(2018)将ZSL关系提取定义为文本蕴涵任务(textual entailment),要求模型预测包含两个实体的输入句子是否匹配给定关系的描述。他们使用增强顺序推理模型(ESIM) (Chen et al., 2016)和条件推理模型(CIM) (Rocktäschel et al., 2015)作为其派生方法。通过将每个输入句子与每个关系描述配对,训练模型回答成对文本是矛盾还是蕴涵。这使得模型能够对输入语句和不可见的关系描述对进行推理,从而能够相应地预测不可见的关系。
必要的形式化定义
$Y s={y_s^1, \ldots, y_s^n}$ : 可见关系标签
$\mathrm{Yu}={y_u^1, \ldots, y_u^n}$ : 不可见关系标签
对于可见与不可见数据集中的每个标签,都分别有一个对应的属性向量$a^i_s$和$a^i_u$。
给定 $N$ 个样本的训练集,其中包含输入句子$X_i$,实体$ei1$和$ei2$,和对应可见关系$y_s^j$的描述$D_i$,表示为 \(\left\{S_i=\left(X_i, e_{i 1}, e_{i 2}, D_i, y_s^j\right)\right\}_{i=1}^N\)
目标是训练一个零样本关系抽取模型$\mathcal{M}\left(S_i\right) \rightarrow y_s^i \in Y_s$用来预测不可见关系$y_u^j$,可表示为
$\mathcal{M}\left(S^{\prime}\right) \rightarrow y_u^j \in Y_u$
输入句子$X_i$被标记化并输入到上半部分ZS-BERT编码器以获得上下文表示。具体来说,本文提取[CLS]
的表示$H_0$和两个实体的表示$H_e^1$、$H_e^2$,然后将它们拼接起来,通过一个完全连接层和激活层来得到句子的表示$\hat{a}_s^i$。在下半部分,使用Sentence-BERT通过编码关系$D_i$的相应描述来获得可见(seen)关系的属性向量$ais$。
本文在多任务学习结构下训练ZS-BERT。一个任务是最小化属性向量$a_s^i$和句子嵌入向量$\hat{a}_s^i$之间的距离。另一种是在训练阶段对可见的关系$y_s^j$进行分类,将关系向量输入softmax层产生关系分类概率。在测试阶段,通过获得新出现的句子和不可见关系的嵌入,我们使用$\hat{a}_s^i$和最近邻搜索来获得不可见关系的预测。
我们将关系描述$D_i$送入预先训练好的Sentence-BERT编码器(Reimers和Gurevych,2019),生成句子级别的表示,作为关系的属性向量$a^i$。
这个过程显示在图2的下半部分。这个例子的基础事实关系是publisher, along with its description Organization or person responsible for publishing books,games or software.
我们只向Sentence-BERT提供关系描述,以获得属性向量。也就是说,我们认为派生的Sentence-BERT是一个投影函数g,将关系描述$D_i$转化为$a^i$。请注意,由Sentence-BERT产生的关系属性向量在模型训练期间是固定的
我们利用BERT(Devlin等人,2019)来生成每个标记的上下文表示。我们首先用WordPiece(Sennrich等人,2016)对输入句子$X_i$进行标记化。两个特殊的标记[CLS]和[SEP]分别被附加到第一个和最后一个位置。由于实体本身在关系提取中确实很重要,我们使用一个实体标记向量,由除实体在句子中出现的索引外的所有为零组成,以指示实体$e_{i1}$和$e{i2}$的位置。
让H0是第一个特殊标记[CLS]的隐藏状态。我们使用tanh激活函数,再加上全连接层,得出表示向量$H_0^{\prime}$,由以下公式给出。$H_0^{\prime}=W_0\left[\tanh \left(H_0\right)\right]+b_0$,其中$W_0$ 和 $b_0$是权重和偏置的可学习参数。我们通过对两个实体的隐藏状态向量($H_e^1$ 和 $H_e^2$)进行平均,得到它们各自的标记隐藏状态向量。
具体来说,如果一个实体$e$由多个标记组成,且指数范围在$q$到$r$之间,我们对隐藏状态向量进行平均化,同时用全连接层增加一个激活操作,以生成其对该实体的表示,由以下公式给出。 \(H_e^c=W_e\left[\tanh \left(\frac{1}{r-q+1} \sum_{t=q}^r H_t\right)\right]+b_e\) 其中 $c=1,2$。句子中两个实体的表征$H_e^c(c=1,2)$共享相同的参数 $W_e$和$b_e$。然后,我们通过连接$H_0^{\prime}, H_e^1$, $H_e^2$来学习属性向量$\hat{a}_s^i$,然后是一个隐藏层,具体如下
\[\hat{a}_s^i=W_1\left(\tanh \left(\left[H_0^{\prime} \oplus H_e^1 \oplus H_e^2\right]\right)\right)+b_1\]其中$W_1$ 和 $b_1$是可学习的参数,$\hat{a}_s^i$的维度为$d$,$\oplus$是连接运算符。
训练过程包含两个步骤:
使输入句子嵌入与对应关系属性向量(即positive)之间的距离最小,同时保证输入句子嵌入与不匹配关系(即negative)之间的嵌入对彼此距离更远。
目标是最大限度地提高基于交叉熵损失的已知关系分类的准确性。
在这项工作中,我们提出了一个新颖而有效的模型–ZS-BERT,来解决零样本的关系提取任务。通过多任务学习结构和高质量的上下文表征学习,ZS-BERT不仅可以将输入的句子很好地嵌入到嵌入空间中,而且还能大幅提高性能。我们还进行了大量的实验来研究ZS-BERT的不同方面,从超参数敏感性到案例研究,最终表明ZS-BERT可以在零样本设置下稳定地超越现有的关系提取模型。此外,通过利用关系的原型作为辅助信息,学习有效的关系嵌入也可能有助于半监督学习或少量学习。