论文部分内容阅读
模式匹配是模式间的一个二元操作,它以源模式和目标模式为输入,以两个模式中元素(在关系型数据库中对应于关系的属性)间的映射关系作为输出。随着数据库应用的越来越广泛,模式匹配在越来越多的应用领域中发挥着重要的作用,例如:模式集成、数据仓库、电子商务、语义WEB和P2P数据库等领域。以往的模式匹配操作大都由操作人员手工完成,这是一个费时、费力且易出错的过程,所以自动模式匹配算法的研究是目前一个研究热点。目前对模式匹配问题的研究成果比较丰富,已有的研究成果主要利用元素自身信息(如元素名、数据类型等信息)、数据实例信息(模式中的数据)和结构信息(模式元素相互关联的关系)来挖掘模式语义以获得正确的元素映射关系。但多数研究成果都主要利用元素自身信息计算元素之间的相似度,并根据相似度选取映射关系。已有的匹配算法主要存在如下一些不足,首先,利用的元素对应的数据实例信息和元素间的结构信息不足,信息不够全面,从而导致匹配结果的准确度不高;其次,已有的算法针对目标模式中的每个元素,在源模式的全局范围内搜索其候选匹配元素,搜索范围大,干扰选项多,匹配结果不够准确;另外,由于已有匹配算法都是基于启发式算法,所以对输出的任意一个匹配结果都无法完全确定其正确性。根据模式匹配研究成果的不足之处,在已有的研究基础上,我们针对模式匹配问题做了如下一些研究工作:将模式元素间的相似度分为语义相似度(根据元素自身信息得到的相似度)和结构相似度(根据元素之间的关联关系得到的相似度),并采用新的统计方法计算元素间的结构相似度,然后利用相似概率的概念将结构相似度和语义相似度综合;最后根据相似概率得到模式元素间的映射关系(模式元素之间的对应关系)。该方法是一种利用元素间的结构信息来辅助模式匹配的新方法。首先根据模式对应的数据实例信息来计算模式元素间的部分函数依赖度(模式结构信息),然后根据部分函数依赖关系建立模式元素间的依赖图,再根据元素依赖图计算元素间的结构相似度,最后得到模式元素间的映射关系。由于利用了更多的结构信息辅助匹配,所以该方法在性能上要优于其它仅使用完全函数依赖结构信息进行匹配的方法。这是一种将数据实例信息与结构信息相结合来辅助匹配的新方法。将模式中的元素按照描述对象的不同划分为不同的元素块,然后利用信息检索领域中的经典算法TF/IDF对源模式和目标模式中的元素块进行匹配,最后利用已有的模式匹配算法在相互匹配的模式块之间进行元素匹配。因为当模式中含有较少的元素时,已有的算法能够取得较好的匹配效果,所以利用本方法对大型模式进行分块匹配能取得较好的匹配效果。采用分层策略进行模式匹配研究中的一种全新的观点。从数据转换的角度分析自动匹配算法的匹配结果并提出了匹配结果中的依赖冲突的概念并给出依赖冲突的定义;然后给出了依赖冲突检测分类算法;最后将依赖冲突检测与几种已有的模式匹配方法相结合并对结合前后的匹配结果进行了对比,对比结果显示:在已有匹配方法中结合依赖冲突检测算法能显著提高匹配算法的准确度。