Web实体间关系发现

来源 :山东大学 | 被引量 : 0次 | 上传用户:l1113106a1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术飞跃性的发展,Web上的网站数量和网页数量正以指数级的速度快速增长。Web已经成为一个拥有海量数据,数据类型多样,数据结构各异巨大的数据源。Web数据集成系统通过有效整合来自不同Web数据源的数据,为诸如市场情报分析、舆情分析、商业智能等分析应用提供重要的高质量的数据支撑。现有的Web数据集成系统中,仅仅包含了Web实体的基本信息,而实体间的丰富的关联信息没有被充分的挖掘。实体之间丰富的关联信息,和准确的标记,能够更加完善的描述实体间的相互关系,对搜索引擎、智能问答、市场情报分析等系统提供数据支持,使搜索引擎返回的检索数据更加精准,丰富智能问答和市场情报分析等系统的知识库,帮助完善分析和推理的各种结果。然而,目前Web数据集成系统采集的数据主要来源于数据量大、质量相对较高的Deep Web站点,并将它们整合成具有统一模式的结构化数据。在海量的Web数据背景下,Web数据集成系统所提供的数据存在以下局限性:1.Web数据集成系统中的实体之间关联信息缺乏,Web数据集成系统的数据采集于有限的数据源,而且这些数据源大多数都是结构化数据源,使得仅仅通过数据集成系统很难挖掘出来Web实体间有意义的关联信息。2.对于已发现的实体间的关系,现有的关系标记方法往往利用复杂的方法,计算量大,对于一些实时系统而言是无法接受的,进行准确和高效的关系标记也成为Web数据集成系统中完善实体间信息的一个重要问题。本文以挖掘Web数据集成系统中实体关系信息、提供实体全面而丰富的信息为目标,针对Web数据集成系统中实体关系发现以及实体关系标注问题展开研究,主要贡献如下:1.本文提出一种基于聚类和向量属性消减的实体语义关系发现算法。该方法在保证语义关系发现准确率的前提下,发现实体间同时存在的多重关系。该方法使用搜索引擎获得到的外部文档以及Web数据集成系统中实体信息,为实体间关系构造特征向量,通过一次聚类过程以及一次向量属性消减过程,发现实体间的关系,在向量属性消减过程中,该方法发现实体间的多重语义关系。2.本文提出一种基于集成学习对实体关系进行标记的方法。该方法通过提高Web数据集成系统中两实体关系相似性判定的准确率,来对实体关系进行标注。同时,该方法减小了相似性计算的花费,对实体显式关系进行标注。该方法将四种实体关系相似性判定方法使用集成学习的方法进行集成,特别的对于SVM方法,该方法对其在计算方面进行优化,使得不用为每个实体对之间的关系训练一个特殊的SVM,而是选取Web数据集成系统中用户最为关注的多个关系作为候选,在这些关系中对实体关系进行匹配,进而计算实体关系间的相似性。通过实体关系之间的相似性,对实体关系进行标记。实验结果表明,该方法提高了实体关系间的相似性判定准确率,进而提高了关系标注的准确率,同时能够很好地降低相似性判定的计算花费。3.本文提出了一种基于两阶段聚类的实体隐式关系挖掘算法。该算法使用搜索引擎返回的结果文档,挖掘并标记Web数据集成系统中相关实体之间的语义关系。该方法使用大量的外部文档,从文档中抽取与目标实体的相关实体以及相关上下文,为实体关系构造关系向量,通过关系向量的一次聚类,该方法获得与目标实体有相同关系的实体簇。通过对实体簇的第二次聚类,该方法获得拥有相似关系的簇集合,进而对这些簇集合进行标记。实验结果表明,该方法在保证准确率的前提下,较大的提高了结果的召回率与F值。
其他文献
随着Internet技术的快速发展,互联网已经成为人们日常生活中从外界获取信息不可缺少的手段。从政府机关和各企业公司到个人生活,都离不开互联网。但是随着网络技术的发展,Web网
在本文中,我们关注一个挑战性的问题—基于弱监督的图像区域标注,即在数据集中只有图像层标签这种弱监督信息可以使用。图像区域标注在计算机视觉以及图像信息检索领域中有广
由于当前嵌入式系统运行的应用程序越来越复杂和强大,基于SRAM/DRAM的存储系统逐渐成为了系统能耗和扩展性的瓶颈。最近出现的新型非易失性存储器,包括自旋矩传输磁存储器(ST
现代农业生产离不开环境控制,本文在对国内外温室智能控制进行深入分析的基础上,针对温室智能化控制存在的诸多因子,将智能传感器监测和单片机控制相结合,提出了基于单片机的温湿
H.264/AVC标准是ITU-T VCEG和ISO/IEC MPEG联合制定的新一代视频编码标准,它采用了一系列新技术成果,主要包括:空间域内的多模式帧内预测、1/4像素精度运动估计、整数DCT变换量
生物特征识别技术是通过生物统计学原理和计算机等高科技的技术手段密切结合,利用人体固有的行为特征和生理特性来进行个人身份的鉴定。它具有传统的身份鉴别方式所不能比拟
随着互联网的普及,信息安全问题越来越受到人们的关注,尤其是可信网络内部的安全问题。因此,安全审计系统应运而生。本文将信息过滤技术应用到安全审计的内容审计中,对于完善
随着机器视觉、深度学习等领域的高速发展,基于视觉的智能化屏幕检测算法接连提出。虽然这些算法的检测效果越来越好,但是无法适用于新型号的数据并且无法对缺陷进行精细的评
随着万维网的迅速发展以及信息技术在各个科学领域的普及,数据的表现方式在同一科学领域的不同机构之间已呈现出不同的特点,数据之间的共享以及集成成为对数据资源进行有效利
随着经济发展,物流作为我国的朝阳产业,其重要性逐渐显现出来,它越来越受到各个行业的重视。如何解决物流配送问题己成为降低成本、增加效益的重要研究课题。配送路线的合理