论文部分内容阅读
实体在自然语言处理中表示语言描述的对象,例如商业新闻中的企业和旅行游记中的景点等。隐藏在文本中的实体关系具有极大的价值,例如企业关系可以辅助决策,景点关系可以帮助推荐等。因此从文本中发现实体关系成为了一项极具管理意义的工作。在传统的实体关系抽取研究中,研究者们主要是依据实体之间的共现关系进行。这样抽取出的关系是异质的,即抽取出的关系不一定是同一类关系,然而更紧密的同质关系更能体现实体间的联系。假设我们建立企业的关系是因为他们的某种具体行为,而不是仅仅因为他们出现在同一篇新闻稿中。那么在构建出的网络中,实体的关系将更加紧密,从而使得后续分类或预测工作的准确度更高。抽取同质关系主要面临三个挑战:首先,同质关系在网络文本中的存在很稀疏。其次,文档包含的实体未知。最后,语料包含的关系集合和文档对应的标签也未知。针对以上挑战,本文着手在互联网的海量文本中进行企业关系的预测。我们需要分别解决实体识别和行为抽取两个问题,并以此来对实体的同质关系进行建模。本文关注的第一个问题是实体名识别——需要去探究文档中字(词)元素组成实体名的可能性。本文将该问题转化为一个复合词识别问题。本文提出了一种度量候选样本元素分布的方法。根据分布,样本被分为四组,然后对每一组分别使用八十余种关联度进行识别。实验验证了本文提出的分组策略会提升复合词识别的准确程度。另外,针对识别效果不理想的组别,本文还提出了AMIS(Association Meassurement Introduction Strategy)算法进行改进。本文关注的第二个问题是行为的抽取。本文提出了一个“聚类+标注+分类”的框架。实验表明,本文的提出的方法在识别行为的效果上,优于其他传统表征结合经典的分类方法,除此之外还能够识别出稀有的企业行为。本文以实体为节点,特定的行为为边构建企业的行为关系网络。本文关注的第三个问题是,在给定现有关系网络的情况下,判断原本没有关系(边连接)的企业之间建立关系(边)的可能性。本文改进Node2Vec模型训练节点向量,得到一个适合的模型进行预测。实验证实了改进后的Node2Vec确实会得到更好的效果。本文的主要贡献是提供了从互联网语料中挖掘和使用企业同质关系的技术路线。本文针对实体名识别提出的样本分布度量方法、分组策略以及AMIS算法,针对企业行为识别提出的“聚类+标注+分类”的框架,以及针对关系预测改进的Node2Vec模型,为该技术路线中的关键步骤所面临的问题提出了良好的解决方案。