关系抽取

定义

关系抽取就是从一段文本中抽取出(主体,关系,客体)这样的三元组,用英文表示就是(subject, relation, object)这样的三元组。所以关系抽取即三元组抽取。从关系抽取的定义也可以看出,关系抽取主要做两件事:

  • 识别文本中的subject和object(实体识别任务)
  • 判断这两个实体属于哪种关系(关系分类)。

方法

基本的做法包括基于规则匹配、监督学习、半监督学习、无监督学习以及远程监督学习等方法。

规则匹配

监督学习

利用标注好的训练数据,虽然效果很好,但需要花费大量的人力、财力。

半监督学习

解决获取大量高质量标注数据难问题的一种解决方式,利用少部分高质量标注数据,通过相关算法学习,常用的是Bootstrapping learning 以及远程监督方法。对于关系抽取任务来说,Bootstrapping 算法的输入少量实体关系数据作为种子,找到更多有某种关系的相关数据。但是我们可以想到一个问题就是利用少量的种子数据在大规模数据中搜寻出来的结果,是否是我们真正想要的,会不会存歧义的数据,毕竟利用一点种子就想达到我们的目标,肯定是存在某些问题的,这也是 Bootstraping 算法的语义漂移问题。

TODO:Bootstrapping

无监督学习

远程监督学习

远程监督关系抽取是通过将大规模非结构化文本中的语料与知识库对齐,这样便可以获取大量训练数据供模型训练。

远程监督关系抽取的工作可以分为两阶段,其中后期以及目前的发展都集中在神经网络提取特征信息结合多实例学习思想

资源总结

参考链接