论文部分内容阅读
World Wide Web(简称WWW,或Web网)自20世纪90年代发明以来就一直呈现蓬勃发展之势,到今天为止其蕴含着海量的丰富资源,包罗万象,是人类一笔宝贵的知识财产。Web网按其分布状况可以分为“表层网(Surface Web)"和“深层网(Deep Web)"。Deep Web指那些存储在网络数据库里、不能通过超链接访问而需要通过动态网页技术访问的资源集合。根据调查,Deep Web中包含的信息量超过Surface Web上千倍,而且这个比例仍在持续地上升。为了能够有效利用Deep Web中丰富的信息,建立Deep Web数据集成系统成为了当前最迫切的需求。由于Web数据库的异质性和自主性,对从各个Web数据库中抽取结果的合并是一项十分具有挑战性的工作。为了对抽取结果进行清洗和去重,重复记录识别则是数据合并过程中的一个必不可少的环节。本文概要介绍了重复记录识别(即数据清洗和去重)问题及其应用,详细地阐述了实现重复记录识别的不同方法以及它们所应用的结构。针对已有的大多数的数据清洗方法主要是基于结构化的关系数据的局限性,本文提出一种处理从Deep Web数据源中抽取出的半结构化数据的重复记录识别模型。本模型主要由数据预处理模块、同构记录处理模块和异构记录处理模块组成。"Deep Web数据源下重复记录识别模型”利用数据集成过程中的基于特定领域的全局模式来分析不同数据源的实体记录值间的匹配关系,进而大大提高了计算实体记录间的相似度的准确性。在计算来自不同数据源的实体记录间的相似度时,本模型提供了一个可扩展的相似度算法库,并且在计算的过程中支持不同相似度算法相结合。在该模型中,新的相似度方法可以根据需要添加到相似度算法库中,并且针对不同领域可以制定不同的相似度计算策略和选择不同的相似度计算方法。实验表明,这种重复记录识别模型在Deep Web环境下是可行且有效的。