面向Web数据集成的数据融合问题研究

被引量 : 0次 | 上传用户:nb08611033
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的飞速发展,Web技术以其广泛性、交互性、快捷性和开放性等特点迅速风靡全球,并且已经渗入到社会的各个领域,网站及网页数量正以指数级飞速增长。如何准确、有效的集成海量高价值的Web信息,对于诸如市场情报分析、舆情分析、商业智能等分析型应用尤为重要,具有非常重要的应用价值和现实意义。但是,相对于传统数据集成的数据源,Web数据具有形式多样、表达自由、发布随意等特点,使得集成结果冗余度高、准确度差、数据离散,极大的影响了集成数据的质量。因此,如何消除冗余、去伪存真、关联数据,从而有效的融合数据不仅是确保集成数据质量的关键所在,也是进一步准确数据分析和挖掘的前提。作为Web数据集成的重要组成部分,数据融合是集成数据的质量保证和分析挖掘的前提条件,已经成为当前的研究热点之一。本文致力于提高集成数据的质量、为分析型应用提供高质量的数据支撑。但是,由于Web数据形式多样、表达自由、发布随意的特点,导致Web数据融合研究中仍然存在以下问题亟待解决:(1)Web数据形式多样,同一对象的不同表达之间存在很大差异,因此,为了建立目标实体的全景视图,Web数据融合首先需要识别表示同一实体的不同表象;(2)由于Web信息发布的随意性以及信息发布者的水平差异,使得Web中广泛存在着不完整、过时、甚至虚假、错误的信息,因此,为了保证集成Web信息的准确性,Web数据融合需要对多数据源的数据进行冲突解决;(3)相对于传统数据集成,Web数据集成所关注的实体类型更加丰富,除了主要关注的目标实体信息外,还需要集成更多的相关实体信息,因此,为了给用户提供更为全面的实体视图,Web数据融合需要建立同一实体多角度的数据关联;(4)Web数据融合作为一个整体对用户来讲还是一个黑盒过程,这使得现有数据融合过程缺乏可解释性和可调试性。因此,为了使用户能够了解数据来源及其演化过程,便于在融合过程中进行合理的人工参与,需要建立数据融合的可回溯机制。本文以提高Web数据集成中集成数据的质量为目标,针对Web数据融合中存在的关键问题展开研究,主要贡献体现在如下几点:(1)针对Web实体描述变体多及属性缺失现象,提出基于拟团相似度的一种整体式实体统一方法,提高了Web数据实体统一的准确性。为了统一实体描述的不同表达、消除冗余数据,需要研究如何识别同一实体的不同表象,即实体统一。针对这一问题,本文提出一种基于拟团相似度的整体式实体统一方法,利用匹配决策相互促进的思想,迭代完成各匹配对的统一,提高了实体统一的准确度。在相似度度量两方面,该方法分别从属性相似度、上下文相似度及关系相似度三个方面来度量表象相似度,通过综合运用多种相似度度量方法,有效的克服了Web数据描述多变体及属性缺失所带来的问题。特别的,对于关系相似度,方法利用了拟团这一数据结构,通过拟团的紧密度特性来度量表象的关系相似度,以提高实体统一的准确度。在方法效率方面,本文利用Blocking的思想,根据候选关键字将可能匹配的表象进行分组,有效提高了实体统一方法的效率。(2)针对Web数据集成的动态性及Web信息发布的随意性,提出一种基于Markov逻辑网的两阶段数据冲突解决方法,可以有效的解决Web信息的数据冲突。为了对Web数据进行去伪存真、真假识别,需要研究如何解决Web信息的数据冲突。针对这一问题,本文提出一种基于Markov逻辑网的两阶段数据冲突解决方法,该方法根据数据冲突程度对属性进行划分,并分两阶段进行处理;由于充分利用了弱冲突属性对强冲突属性的影响因素,有效的提高了数据冲突解决的准确度。通过对冲突数据及数据源特点的观察和分析,该方法综合运用了多角度的特征和规则,保证了数据冲突解决的有效性和准确率。实验结果表明,所提方法能够较好的完成数据冲突解决任务,具有较强的准确性和可适应性。(3)针对Web数据源自治性强及实体描述不统一的特点,提出一种基于两层条件随机场的相关非结构化数据与结构化实体的关联方法,有效的实现了已集成结构化实体与相关非结构化数据的关联。为了关联目标实体及其相关实体信息,需要研究如何建立结构化实体与其相关非结构化数据的关联。针对这一问题,本文以评论做为一种典型的非结构数据,提出一种基于两层条件随机场的评论与结构化实体匹配方法,该方法有效的利用了已集成结构化实体信息,减少了对于大规模手工标注样本的依赖。在命名实体识别方面,利用半Markov条件随机场对评论中的实体进行识别,综合运用了包括实体级词典特征在内的多类特征,有效的解决了实体变体的问题,提高了识别的准确率。通过在多领域大量真实数据上的实验结果证明,所提方法能够有效地解决非结构化数据与结构化实体的匹配问题,具有较高的准确率(4)针对现有数据融合阶段相对孤立、数据融合过程缺乏可解释性的特点,提出一种Web数据融合的可回溯机制,使得用户可以追溯融合结果的数据来源以及演化过程。为了使融合结果具备可解释性、融合过程具备可调试性,需要研究Web数据融合的可回溯机制。针对这一问题,本文提出一种基于数据世系的Web数据融合可回溯机制,该方法利用PI-CS表示数据来源世系,较之传统的Lineage-CS更为准确。为了记录数据融合的演化过程,该方法又提出了两类新的转换世系:ER Provenance及DCR Provenance,分别记录实体统一及数据冲突解决过程的演化过程。
其他文献
隐私权是人类文明化的产物,同时也是一项重要的人格权利,关乎到人类的尊严及价值。随着网络时代的到来,个人隐私信息变得更易被获取,可以说从用户连入网络的那一刻起,他的信
土壤是农业生产的根本,土壤养分供应与作物养分需求的协调性是限制作物高产和土地质量好坏的关键因素。随着人类社会的进步和发展,人口与生态环境之间的矛盾日益突出:水污染、
<正>志趣是人的一种个性品质,指人的志向、理想和与志向相关的爱好和执著的追求,是人的世界观、人生观、价值观的内在表现。志趣决定情趣,有什么样的志趣,就有什么样的情趣。
<正> 矗立在南昌市西湖区站前路旁的绳金塔,是一座有着1100年历史的江南名塔,也是南昌最古老的建筑物。每当我看到她那黄澄澄的塔尖、听到绳金塔风铃发出清脆的"玎玲"声,就激
本文从专业的角度,对高层建筑剪力墙结构优化设计处理方法进行了详细分析;并结合工程实例,从建筑整体结构计算、地基处理、基础设计、剪力墙及连梁钢筋用量、楼板钢筋用量等
中广网北京4月7日消息(记者李欣)据中国之声《新闻纵横》报道,2012年4月7日是“世界卫生日”,关注的主题是:老龄化与健康。根据联合国人口基金会的调查显示,目前,我国65岁以上
<正>越来越多的电视媒体更加注重频道和节目的收视率,不得不把收视率当作生命线。收视率高,就皆大欢喜;收视率低,则苦恼悲戚。在实际工作中我们发现,有的电视栏目多搞活动推
郑成功父子与日本和日本华侨有着密切的关系。从郑芝龙孑身到日本经商致富以至成为“海上之王”,直到郑成功的出生和成长,都与郑氏侨居日本并与日本华侨来往有着密切的联系。
期刊
高管变更与盈余管理之间的关系历来是盈余管理领域关注的热点问题之一,但我国对这一问题的经验文献却相对较少。以中国资本市场2001年到2006年的A股上市公司为样本,实证检验
<正>01陕西省委常委、宣传部长景俊海——建机制、强队伍,推动基层宣传思想文化工作硬起来强起来在贯彻落实"四个全面"战略布局中,加强基层宣传思想文化工作,是更好地服务基