基于扩展邻接矩阵的XML文档结构及语义相似性计算方法

来源 :南开大学 | 被引量 : 0次 | 上传用户:yl9
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现今,网络数据不断激增,这其中大多数数据是半结构化的,半结构化数据的结构类似于图或树,通常称为有向标记图。怎样才能在这些海量的半结构化数据中找到我们需要的数据甚至如何从中挖掘出一些我们不曾了解的隐藏信息成为数据挖掘的一个新的研究方向。半结构化数据有很多种表现形式,XML文档是其中很重要的一种。因此在这个研究方向中,如何能量化两个XML文档的相似性是一个关键,特别是两个XML文档的结构和语义相似性。   XML不仅可以描述结构化数据,还具有描述半结构化数据的能力。目前,它是处理半结构化文档的最有力的工具。XML文档的相似性计算在XML数据的近似搜索和文档分类方面有非常重要的作用。一些XML相似性计算方法已经被前人提出,例如编辑距离等,然而,很少有方法能够简洁的描绘出XML文档的结构及语义信息,进而有效的计算XML文档间的相似性。本文提出一种新的基于扩展邻接矩阵的XML文档结构及语义相似性测度方法。   首先,本文介绍了数据挖掘概念及文档相似性计算产生的背景与意义、XML文档概念与特点以及传统的XML文档相似性计算方法等。   其次通过深度搜索和区间编码技术对文档结构信息进行编码,参考邻接矩阵的概念提出本文相似性计算方法的核心扩展邻接矩阵,不同于普通的邻接矩阵,在扩展邻接矩阵中,结构信息不仅仅是指邻接的层,还包含了祖先-子孙之间的关系。为了计算两个文档间的相似性,本文提出的方法首先会将两篇XML文档的结构和语义信息存储在两个扩展邻接矩阵(M1,M2)中,然后通过cos(M1,M2)计算两篇XML文档的相似性。   最后介绍本文提出的相似性计算方法是如何在程序中实现的,并设计一系列实验来验证该方法与其他相似性计算方法相比较效果如何。通过大量实验证明,该方法具有较高的有效性和准确性。
其他文献
近年来,随着各大高校每年招生数量的逐渐增多,高校宿舍管理工作人员的工作量越来越大,效率却越来越低,如何充分利用Internet和计算机技术为高校的宿舍管理工作以及学生的日常生活
标签推荐是一个新的研究方向,其旨在为目标资源自动添加标签作为描述信息,来缓解标签空间噪声数据增多、标签指代内容模糊等现象。目前,标签推荐方法主要有基于内容的方法、基于
随着信息时代的到来,社会对数据处理的需求越来越复杂,越来越多样化。传统的关系型数据及关系型数据库已经渐渐不能够满足现代数据,尤其是结构化半结构化数据的数据描述需求与数
贝叶斯网络检索模型是信息检索中概率模型中的一种。合理使用术语关系扩展该检索模型可以有效地提高检索性能。本体是共享的概念模型的形式化的规范说明,具有概念层次结构和
随着信息化技术的迅速发展,数字出版已经显示出它特有的优势。但数字作品可以几乎零成本复制和传播也带来了版权很难得到保护等问题。于是数字版权管理(Digital Rights Manage
数字媒体是指以二进制数的形式记录、处理、传播、获取信息的载体。数字版权管理指的是数字媒体出版者用来控制数字媒体使用权所采用的一项技术。同其他的加密技术不同,数字版
随着信息化时代的到来以及企业对办公自动化的需求不断加强,企业内部根据不同部门的职能根据各自需求建立了多个企业内部的应用系统,其中员工考勤系统可以使繁杂重复的手工记录
文字识别技术一直以来都是模式识别领域中的一个重要课题。基于不同的书写方式,不同的识别对象,识别方法也不尽相同。在充分考察目前英文单词识别技术发展现状的基础上,本文设计
随着计算机科学技术的快速发展和广泛应用,为了解决海量数据处理、大规模数据计算等问题,研究各种耦合程度的分布式多机系统,已成为当今计算机及其应用技术的一个重要方向。