基于相关度计算的实体关系分类研究与应用

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:selions
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的迅速发展,网络上的数据资源呈现出指数级增长的态势,信息抽取技术就是为了从这些海量的数据资源中获取有价值的信息。信息抽取的最终目的是从文本资源中获取到事实信息,称为实体,从更抽象的角度来看,一切具有特定属性集合的物体都可以被视为实体。如何确定实体之间的关系已经成为与实体相关的研究中一项极为重要的工作。本文以计算实体之间的相关度及对实体之间的关系进行分类为目标,从实体的属性信息入手进行实体之间相关度的计算,并将实体之间的语义相关度加入到实体关系分类的任务中。本文相应研究以下3个方面的内容。本文首先分析了传统的实体相关度计算方法,在通过实验比较了多种相关度计算模型的效果后,本文以最常见的文本实体为例,提出了用词语和文本互相指导的相关度计算模型。该模型旨在充分挖掘文本及其构成词语之间的关系,用词语之间的相关度去指导文本之间的相关度,反之亦然。在此基础上,本文将互指导计算模型应用到移动App实体相关度计算中,通过App的用户评论信息去指导App自身的相关度信息。在确定了实体之间的相关度之后,本文尝试对实体之间的关系进行分类。在传统表层语言学特征的基础上提出了语义相关度特征,并将二者融合到关系分类任务中。在分析了主流方法中的kNN和SVM在关系分类任务中的不足后,本文提出了用改进后的半监督自助学习算法进行关系分类。自助学习算法可以有效避免对大量标注数据的依赖,并且在效果上接近于有监督学习方法。本文针对移动App实体之间关系的特点,提出在自助学习算法的初始标注集合的选取中采用分层抽样策略,并通过控制迭代停止等参数可以达到较好的分类效果。实体之间的相关度及实体之间的关系在推荐系统中有着广泛的应用。本文正是将前面两部分的工作相结合,在计算出移动App实体之间的相关度以及对App实体之间的关系进行分类的基础上,构建出一个类似于谷歌知识图谱的实体关系网络。在该实体关系网络中,节点代表实体,节点之间的边代表实体之间的关系,边的权重代表实体相关度的大小,本文在此网络的基础上实现了一个移动App推荐系统。与已有的App推荐系统只给出相似推荐所不同的是,本文构建的推荐系统不仅给出相似推荐,而且给出了相关推荐,很好地满足了用户的使用习惯。
其他文献
命题逻辑中的可满足性问题(SAT)是判断给定的命题公式是否存在模型的问题。SAT问题是第一个被证明是NP完全的问题,在理论计算机研究领域中具有非常重要的地位。MAX-SAT是SAT问
超宽带(UWB)技术近来被认为是解决高速率、短距离无线通信系统的有效方案。它具有通信容量大,辐射功率密度低,抗多径干扰,结构简单和保密性好等优点。本文在对UWB系统协议IEEE80
随着信息技术的发展,基于J2EE架构的Web应用系统广泛应用于企业、机构等各领域中,尤其是在安全性要求非常高的电子商务等系统中的大量应用,使得人们对Web应用系统的安全性越
近年来,非线性系统的故障诊断已成为故障诊断研究的一个热点。本文就此领域的相关问题展开研究。本文针对几类满足某种条件的非线性系统,直接建立非线性模型,基于非线性系统
90年代兴起的运动捕获技术被广泛用于辅助制作动画。但随之而起的问题是如何方便、高效地利用运动捕获数据进行动画创作。基于运动捕获数据的动画研究,近年来一直是计算机图
目前,基于位置的服务已经受到了世人的瞩目,无线蜂窝网所提供的定位业务不仅可以应用于紧急救援、动态跟踪,还可以提供车辆导航、智能交通、黄页查询以及移动终端盗打防范、基于
专家系统是一个智能计算机程序,它利用知识和经验,通过推理来解决某领域中只有人类专家才能解决的难题。专家系统的研究和应用已经成为全世界人工智能研究的热点和焦点。智能
随着Internet的迅速发展,网络规模、用户数量及业务量呈现爆炸式增长,由此引发的网络拥塞已经成为制约网络发展和应用的瓶颈问题。有效解决拥塞对于提高网络性能具有重要意义
当今,嵌入式操作系统的应用越来越广泛,嵌入式控制系统的软件也变得越来越复杂,尤其是当嵌入式系统应用于军事、航天等领域时,对嵌入式系统的实时性和可靠性具有很高的要求。在设
软件配置管理是软件开发中的一项基本支持活动,是卡内基梅隆大学软件工程研究所SEI提出的软件能力成熟度模型CMM第二级的一个关键过程域。软件配置管理的目标是在软件生命周期