论文部分内容阅读
随着Internet的飞速发展,Web技术以其广泛性、交互性、快捷性和开放性等特点迅速风靡全球,并且已经渗入到社会的各个领域,网站及网页数量正以指数级飞速增长。如何准确、有效的集成海量高价值的Web信息,对于诸如市场情报分析、舆情分析、商业智能等分析型应用尤为重要,具有非常重要的应用价值和现实意义。但是,相对于传统数据集成的数据源,Web数据具有形式多样、表达自由、发布随意等特点,使得集成结果冗余度高、准确度差、数据离散,极大的影响了集成数据的质量。因此,如何消除冗余、去伪存真、关联数据,从而有效的融合数据不仅是确保集成数据质量的关键所在,也是进一步准确数据分析和挖掘的前提。作为Web数据集成的重要组成部分,数据融合是集成数据的质量保证和分析挖掘的前提条件,已经成为当前的研究热点之一。本文致力于提高集成数据的质量、为分析型应用提供高质量的数据支撑。但是,由于Web数据形式多样、表达自由、发布随意的特点,导致Web数据融合研究中仍然存在以下问题亟待解决:(1)Web数据形式多样,同一对象的不同表达之间存在很大差异,因此,为了建立目标实体的全景视图,Web数据融合首先需要识别表示同一实体的不同表象;(2)由于Web信息发布的随意性以及信息发布者的水平差异,使得Web中广泛存在着不完整、过时、甚至虚假、错误的信息,因此,为了保证集成Web信息的准确性,Web数据融合需要对多数据源的数据进行冲突解决;(3)相对于传统数据集成,Web数据集成所关注的实体类型更加丰富,除了主要关注的目标实体信息外,还需要集成更多的相关实体信息,因此,为了给用户提供更为全面的实体视图,Web数据融合需要建立同一实体多角度的数据关联;(4)Web数据融合作为一个整体对用户来讲还是一个黑盒过程,这使得现有数据融合过程缺乏可解释性和可调试性。因此,为了使用户能够了解数据来源及其演化过程,便于在融合过程中进行合理的人工参与,需要建立数据融合的可回溯机制。本文以提高Web数据集成中集成数据的质量为目标,针对Web数据融合中存在的关键问题展开研究,主要贡献体现在如下几点:(1)针对Web实体描述变体多及属性缺失现象,提出基于拟团相似度的一种整体式实体统一方法,提高了Web数据实体统一的准确性。为了统一实体描述的不同表达、消除冗余数据,需要研究如何识别同一实体的不同表象,即实体统一。针对这一问题,本文提出一种基于拟团相似度的整体式实体统一方法,利用匹配决策相互促进的思想,迭代完成各匹配对的统一,提高了实体统一的准确度。在相似度度量两方面,该方法分别从属性相似度、上下文相似度及关系相似度三个方面来度量表象相似度,通过综合运用多种相似度度量方法,有效的克服了Web数据描述多变体及属性缺失所带来的问题。特别的,对于关系相似度,方法利用了拟团这一数据结构,通过拟团的紧密度特性来度量表象的关系相似度,以提高实体统一的准确度。在方法效率方面,本文利用Blocking的思想,根据候选关键字将可能匹配的表象进行分组,有效提高了实体统一方法的效率。(2)针对Web数据集成的动态性及Web信息发布的随意性,提出一种基于Markov逻辑网的两阶段数据冲突解决方法,可以有效的解决Web信息的数据冲突。为了对Web数据进行去伪存真、真假识别,需要研究如何解决Web信息的数据冲突。针对这一问题,本文提出一种基于Markov逻辑网的两阶段数据冲突解决方法,该方法根据数据冲突程度对属性进行划分,并分两阶段进行处理;由于充分利用了弱冲突属性对强冲突属性的影响因素,有效的提高了数据冲突解决的准确度。通过对冲突数据及数据源特点的观察和分析,该方法综合运用了多角度的特征和规则,保证了数据冲突解决的有效性和准确率。实验结果表明,所提方法能够较好的完成数据冲突解决任务,具有较强的准确性和可适应性。(3)针对Web数据源自治性强及实体描述不统一的特点,提出一种基于两层条件随机场的相关非结构化数据与结构化实体的关联方法,有效的实现了已集成结构化实体与相关非结构化数据的关联。为了关联目标实体及其相关实体信息,需要研究如何建立结构化实体与其相关非结构化数据的关联。针对这一问题,本文以评论做为一种典型的非结构数据,提出一种基于两层条件随机场的评论与结构化实体匹配方法,该方法有效的利用了已集成结构化实体信息,减少了对于大规模手工标注样本的依赖。在命名实体识别方面,利用半Markov条件随机场对评论中的实体进行识别,综合运用了包括实体级词典特征在内的多类特征,有效的解决了实体变体的问题,提高了识别的准确率。通过在多领域大量真实数据上的实验结果证明,所提方法能够有效地解决非结构化数据与结构化实体的匹配问题,具有较高的准确率(4)针对现有数据融合阶段相对孤立、数据融合过程缺乏可解释性的特点,提出一种Web数据融合的可回溯机制,使得用户可以追溯融合结果的数据来源以及演化过程。为了使融合结果具备可解释性、融合过程具备可调试性,需要研究Web数据融合的可回溯机制。针对这一问题,本文提出一种基于数据世系的Web数据融合可回溯机制,该方法利用PI-CS表示数据来源世系,较之传统的Lineage-CS更为准确。为了记录数据融合的演化过程,该方法又提出了两类新的转换世系:ER Provenance及DCR Provenance,分别记录实体统一及数据冲突解决过程的演化过程。