Deep Web数据源下重复记录识别模型的研究

来源 :东北大学 | 被引量 : 0次 | 上传用户:aqqz2000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
World Wide Web(简称WWW,或Web网)自20世纪90年代发明以来就一直呈现蓬勃发展之势,到今天为止其蕴含着海量的丰富资源,包罗万象,是人类一笔宝贵的知识财产。Web网按其分布状况可以分为“表层网(Surface Web)"和“深层网(Deep Web)"。Deep Web指那些存储在网络数据库里、不能通过超链接访问而需要通过动态网页技术访问的资源集合。根据调查,Deep Web中包含的信息量超过Surface Web上千倍,而且这个比例仍在持续地上升。为了能够有效利用Deep Web中丰富的信息,建立Deep Web数据集成系统成为了当前最迫切的需求。由于Web数据库的异质性和自主性,对从各个Web数据库中抽取结果的合并是一项十分具有挑战性的工作。为了对抽取结果进行清洗和去重,重复记录识别则是数据合并过程中的一个必不可少的环节。本文概要介绍了重复记录识别(即数据清洗和去重)问题及其应用,详细地阐述了实现重复记录识别的不同方法以及它们所应用的结构。针对已有的大多数的数据清洗方法主要是基于结构化的关系数据的局限性,本文提出一种处理从Deep Web数据源中抽取出的半结构化数据的重复记录识别模型。本模型主要由数据预处理模块、同构记录处理模块和异构记录处理模块组成。"Deep Web数据源下重复记录识别模型”利用数据集成过程中的基于特定领域的全局模式来分析不同数据源的实体记录值间的匹配关系,进而大大提高了计算实体记录间的相似度的准确性。在计算来自不同数据源的实体记录间的相似度时,本模型提供了一个可扩展的相似度算法库,并且在计算的过程中支持不同相似度算法相结合。在该模型中,新的相似度方法可以根据需要添加到相似度算法库中,并且针对不同领域可以制定不同的相似度计算策略和选择不同的相似度计算方法。实验表明,这种重复记录识别模型在Deep Web环境下是可行且有效的。
其他文献
随着科学技术的发展,全球信息化时代的全面到来,数字化科技将为未来社会建立起“数字世界新秩序”,数字化信息将成为人类社会的重要支柱之一。在数字全球化的大环境下,传统的档案
随着计算机网络技术和计算机通信技术的迅猛发展,使人们对网络上提供的高质量视频/音频等多媒体服务的需求越来越大。以视频点播(VOD)为核心的各种网络应用和信息服务将成为人们
随着多媒体技术和网络技术的发展,多媒体信息的机密性和真实性越来越受到人们的重视。但是在对数据进行保护的时候往往却忽略了多媒体数据本身的特点,如文件格式、码流结构、
模式识别是一种人工智能信息处理技术,在近年来广泛应用于文字、指纹和遥感图像识别等领域。模式识别大致分为三个过程:预处理、特征提取、识别。预处理完成的是前期工作,对
在计算机网络中存在着大量空闲的存储资源,例如台式机、服务器、工作站等,虽然这些节点的计算与存储能力各异,但都可以向其他节点提供一定的共享存储空间,并且这些节点也可能成为
随着计算机网络技术的迅速发展,计算机网络无所不在地影响着社会的政治、经济、文化、军事等各个方面。大多数的企业、政府部门与机构都在充分利用网络,组建和发展自己的网站来
计算机的广泛应用和Web技术的快速发展使人们进入了互联网时代,为人们的生产生活提供了极大的便利。与此同时,J2EE Web技术的广泛应用,推动厂互联网技术的进步。人们在享受We
随着计算机技术的发展和网络带宽的提高,Web上图像资源变的越来越丰富,它们被大量的内嵌在网页中,构成了一个庞大的“Web图像数据库”。Web图像检索致力于解决从纷繁复杂的Web上
计算机蠕虫这种自传播的恶意程序近来对Internet产生了巨大的威胁,同时它们的传播和感染能力还在不断地提升。在这种频繁攻击的环境下,仅仅使用传统人工补丁的方法来保护系统
随着Internet的高速发展,互联网上的信息越来越多,呈现爆炸式增长,以互联网信息为数据基础的云计算和大数据分析技术随之兴起。然而,在互联网上所有的网页不仅含有重要信息,