论文部分内容阅读
随着互联网技术飞跃性的发展,Web上的网站数量和网页数量正以指数级的速度快速增长。Web已经成为一个拥有海量数据,数据类型多样,数据结构各异巨大的数据源。Web数据集成系统通过有效整合来自不同Web数据源的数据,为诸如市场情报分析、舆情分析、商业智能等分析应用提供重要的高质量的数据支撑。现有的Web数据集成系统中,仅仅包含了Web实体的基本信息,而实体间的丰富的关联信息没有被充分的挖掘。实体之间丰富的关联信息,和准确的标记,能够更加完善的描述实体间的相互关系,对搜索引擎、智能问答、市场情报分析等系统提供数据支持,使搜索引擎返回的检索数据更加精准,丰富智能问答和市场情报分析等系统的知识库,帮助完善分析和推理的各种结果。然而,目前Web数据集成系统采集的数据主要来源于数据量大、质量相对较高的Deep Web站点,并将它们整合成具有统一模式的结构化数据。在海量的Web数据背景下,Web数据集成系统所提供的数据存在以下局限性:1.Web数据集成系统中的实体之间关联信息缺乏,Web数据集成系统的数据采集于有限的数据源,而且这些数据源大多数都是结构化数据源,使得仅仅通过数据集成系统很难挖掘出来Web实体间有意义的关联信息。2.对于已发现的实体间的关系,现有的关系标记方法往往利用复杂的方法,计算量大,对于一些实时系统而言是无法接受的,进行准确和高效的关系标记也成为Web数据集成系统中完善实体间信息的一个重要问题。本文以挖掘Web数据集成系统中实体关系信息、提供实体全面而丰富的信息为目标,针对Web数据集成系统中实体关系发现以及实体关系标注问题展开研究,主要贡献如下:1.本文提出一种基于聚类和向量属性消减的实体语义关系发现算法。该方法在保证语义关系发现准确率的前提下,发现实体间同时存在的多重关系。该方法使用搜索引擎获得到的外部文档以及Web数据集成系统中实体信息,为实体间关系构造特征向量,通过一次聚类过程以及一次向量属性消减过程,发现实体间的关系,在向量属性消减过程中,该方法发现实体间的多重语义关系。2.本文提出一种基于集成学习对实体关系进行标记的方法。该方法通过提高Web数据集成系统中两实体关系相似性判定的准确率,来对实体关系进行标注。同时,该方法减小了相似性计算的花费,对实体显式关系进行标注。该方法将四种实体关系相似性判定方法使用集成学习的方法进行集成,特别的对于SVM方法,该方法对其在计算方面进行优化,使得不用为每个实体对之间的关系训练一个特殊的SVM,而是选取Web数据集成系统中用户最为关注的多个关系作为候选,在这些关系中对实体关系进行匹配,进而计算实体关系间的相似性。通过实体关系之间的相似性,对实体关系进行标记。实验结果表明,该方法提高了实体关系间的相似性判定准确率,进而提高了关系标注的准确率,同时能够很好地降低相似性判定的计算花费。3.本文提出了一种基于两阶段聚类的实体隐式关系挖掘算法。该算法使用搜索引擎返回的结果文档,挖掘并标记Web数据集成系统中相关实体之间的语义关系。该方法使用大量的外部文档,从文档中抽取与目标实体的相关实体以及相关上下文,为实体关系构造关系向量,通过关系向量的一次聚类,该方法获得与目标实体有相同关系的实体簇。通过对实体簇的第二次聚类,该方法获得拥有相似关系的簇集合,进而对这些簇集合进行标记。实验结果表明,该方法在保证准确率的前提下,较大的提高了结果的召回率与F值。