论文部分内容阅读
近年来,XML技术及其应用正受到越来越广泛的重视,随着更多的数据以XML的格式组织起来,基于XML的数据挖掘技术也正日益受到关注,其中,如何从XML数据库中进行信息的搜索是较为活跃的研究领域之一。本文对“基于XML的信息搜索”这一题目进行了研究,主要工作有以下几个方面:1.在单一源文档T中搜索用户需求DT目前,诸多关于此类的研究都致力于已经存在的两个文档T1,T2之间的相似性比较上,而对如何进行信息搜索的研究相对较少。本文首先分析了文档间相似性的衡量问题,针对以往算法所普遍具有的运算复杂度高的缺点,从文档本身具有的结构特性出发,提出了基于倒向路径(L-R)的信息搜索方法,并在该方法的基础上,给出了DT同T之间的匹配度计算公式,从算法可以看出,该算法的运算复杂度随着XML文档结构的复杂程度而线性地变化。2.在XML数据库(即XML文档集合)中搜索用户需求DT在实际应用中,普遍发生的情况是从某一XML数据库S[T]中搜索同用户需求DT相关的信息。对于庞大的XML数据库而言,不可能从中拿出每一个文档同DT加以比较,尤其是当用户一次提出多个搜索需求DT或多个用户同时提出需求时,其运算的量也将加大,为解决这一问题,本文对XML数据库进行预处理,将那些同DT相关的信息先整理出来,以备后用。这种想法对于多需求的搜索来说尤为重要。首先,本文对数据库的预处理进行了研究,基本思想是:将用户的搜索需求DT归入到XML数据库S[T]中,形成新的XML文档集合S’[T]。在新的文档集合S’[T]上进行聚类操作,以找到那些在结构和描述内容上同DT相关的文档。其次,针对XML本身所具有的结构化,自描述性等特点,在聚类操作中引入了PBC(Path-Based-Clustering)聚类算法,并分析了该算法在用于信息搜索时的不足,根据这一不足提出DTD映射的概念并加以改进,解决了诸如“结点缺失”“结构拓展”等问题,使算法对同一结构的不同组织方式的辨别能力更加灵活,与此同时,DTD映射中所创建的路径表识结点Ai和“层次”属性有助于进行搜索和匹配度运算(第三章)时对被搜索内容进行准确的定位。在文章的最后部分,本文还在已做讨论的基础上给出了基于XML的信息搜索模型。