论文部分内容阅读
在信息研究领域,信息抽取技术是一项必不可少的关键技术。面对如此海量的信息空间,如何更快更准确的抽取出用户感兴趣的内容是一个迫切需要解决的问题,也是信息挖掘技术的一个重要研究方向。信息抽取不同于信息检索等信息处理技术,它需要对文本进行命名实体的识别,并抽取出实体之间的关系,再加上中文文本中词语的灵活多变、构词复杂且没有明显的标志,因此对中文命名实体的识别及关系的抽取就显得更加困难。目前,信息抽取的主要方法有两种,一种是基于知识库算法,这种方法需要建立一些规则,虽然这种方法的准确率较高,但是这种规则的确定是比较困难的,对编写者有较高的要求,且移植性不高;另一种是基于统计的机器学习算法,这种算法采用不同的模型,并利用人工标注的训练集进行学习,对于新的数据集则采用模型算出其相关的概率,并以此来得到最终的结果。这种方法代价较小,性能较高,便于移植,所以是当前研究的热点。随着网络信息量的增大,对海量文本数据的信息抽取也变得复杂起来。如何利用海量文本数据来对实体关系进行更为准确的抽取是本文所要研究的一个重要问题。而这种大数据量的计算对算法的性能要求较高,采用何种策略来应对这种繁重的计算任务也是一个重要的问题。针对这些关键问题,本文提出了相应的解决方案,主要贡献有:·提出一种基于语义和SVM的实体关系抽取算法,在对实体关系的抽取中加入语义特征,以此来构造特征向量,提高关系抽取的准确性和算法的泛化能力。·提出了利用海量文本数据来对实体隐含关系进行挖掘的算法。通过对海量文本数据进行分析,基于前面已经识别出来的实体及关系构造实体关系网络,并采用优化算法来确定最终结果;基于这个最终结果来对实体隐含的关系进行挖掘,得到更为广泛的实体关系,有利于从宏观方面把握整个海量数据的信息。·研究和分析了Hadoop大规模数据处理平台,在此平台上设计并实现了海量文本数据的实体关系抽取及挖掘系统,并将本文中提到的算法在平台上进行验证。本文提出的基于语义与svM的实体关系抽取算法对于实体关系抽取的准确率和算法的推广能力都有一定的提高,基于实体关系网络的实体关系抽取优化算法和实体隐含关系挖掘算法能够进一步提高实体关系的抽取效果,但是在关系抽取算法中还存在关键词歧义对抽取结果的影响,在实体隐含关系挖掘算法中关系的模板也有待于完善,这是未来工作中需要解决的问题之一。