论文部分内容阅读
现今,网络数据不断激增,这其中大多数数据是半结构化的,半结构化数据的结构类似于图或树,通常称为有向标记图。怎样才能在这些海量的半结构化数据中找到我们需要的数据甚至如何从中挖掘出一些我们不曾了解的隐藏信息成为数据挖掘的一个新的研究方向。半结构化数据有很多种表现形式,XML文档是其中很重要的一种。因此在这个研究方向中,如何能量化两个XML文档的相似性是一个关键,特别是两个XML文档的结构和语义相似性。
XML不仅可以描述结构化数据,还具有描述半结构化数据的能力。目前,它是处理半结构化文档的最有力的工具。XML文档的相似性计算在XML数据的近似搜索和文档分类方面有非常重要的作用。一些XML相似性计算方法已经被前人提出,例如编辑距离等,然而,很少有方法能够简洁的描绘出XML文档的结构及语义信息,进而有效的计算XML文档间的相似性。本文提出一种新的基于扩展邻接矩阵的XML文档结构及语义相似性测度方法。
首先,本文介绍了数据挖掘概念及文档相似性计算产生的背景与意义、XML文档概念与特点以及传统的XML文档相似性计算方法等。
其次通过深度搜索和区间编码技术对文档结构信息进行编码,参考邻接矩阵的概念提出本文相似性计算方法的核心扩展邻接矩阵,不同于普通的邻接矩阵,在扩展邻接矩阵中,结构信息不仅仅是指邻接的层,还包含了祖先-子孙之间的关系。为了计算两个文档间的相似性,本文提出的方法首先会将两篇XML文档的结构和语义信息存储在两个扩展邻接矩阵(M1,M2)中,然后通过cos(M1,M2)计算两篇XML文档的相似性。
最后介绍本文提出的相似性计算方法是如何在程序中实现的,并设计一系列实验来验证该方法与其他相似性计算方法相比较效果如何。通过大量实验证明,该方法具有较高的有效性和准确性。