论文部分内容阅读
随着互联网技术的迅速发展,网络上的数据资源呈现出指数级增长的态势,信息抽取技术就是为了从这些海量的数据资源中获取有价值的信息。信息抽取的最终目的是从文本资源中获取到事实信息,称为实体,从更抽象的角度来看,一切具有特定属性集合的物体都可以被视为实体。如何确定实体之间的关系已经成为与实体相关的研究中一项极为重要的工作。本文以计算实体之间的相关度及对实体之间的关系进行分类为目标,从实体的属性信息入手进行实体之间相关度的计算,并将实体之间的语义相关度加入到实体关系分类的任务中。本文相应研究以下3个方面的内容。本文首先分析了传统的实体相关度计算方法,在通过实验比较了多种相关度计算模型的效果后,本文以最常见的文本实体为例,提出了用词语和文本互相指导的相关度计算模型。该模型旨在充分挖掘文本及其构成词语之间的关系,用词语之间的相关度去指导文本之间的相关度,反之亦然。在此基础上,本文将互指导计算模型应用到移动App实体相关度计算中,通过App的用户评论信息去指导App自身的相关度信息。在确定了实体之间的相关度之后,本文尝试对实体之间的关系进行分类。在传统表层语言学特征的基础上提出了语义相关度特征,并将二者融合到关系分类任务中。在分析了主流方法中的kNN和SVM在关系分类任务中的不足后,本文提出了用改进后的半监督自助学习算法进行关系分类。自助学习算法可以有效避免对大量标注数据的依赖,并且在效果上接近于有监督学习方法。本文针对移动App实体之间关系的特点,提出在自助学习算法的初始标注集合的选取中采用分层抽样策略,并通过控制迭代停止等参数可以达到较好的分类效果。实体之间的相关度及实体之间的关系在推荐系统中有着广泛的应用。本文正是将前面两部分的工作相结合,在计算出移动App实体之间的相关度以及对App实体之间的关系进行分类的基础上,构建出一个类似于谷歌知识图谱的实体关系网络。在该实体关系网络中,节点代表实体,节点之间的边代表实体之间的关系,边的权重代表实体相关度的大小,本文在此网络的基础上实现了一个移动App推荐系统。与已有的App推荐系统只给出相似推荐所不同的是,本文构建的推荐系统不仅给出相似推荐,而且给出了相关推荐,很好地满足了用户的使用习惯。