一种基于XML的信息搜索技术

来源 :东北师范大学 | 被引量 : 1次 | 上传用户:lili1006
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,XML技术及其应用正受到越来越广泛的重视,随着更多的数据以XML的格式组织起来,基于XML的数据挖掘技术也正日益受到关注,其中,如何从XML数据库中进行信息的搜索是较为活跃的研究领域之一。本文对“基于XML的信息搜索”这一题目进行了研究,主要工作有以下几个方面:1.在单一源文档T中搜索用户需求DT目前,诸多关于此类的研究都致力于已经存在的两个文档T1,T2之间的相似性比较上,而对如何进行信息搜索的研究相对较少。本文首先分析了文档间相似性的衡量问题,针对以往算法所普遍具有的运算复杂度高的缺点,从文档本身具有的结构特性出发,提出了基于倒向路径(L-R)的信息搜索方法,并在该方法的基础上,给出了DT同T之间的匹配度计算公式,从算法可以看出,该算法的运算复杂度随着XML文档结构的复杂程度而线性地变化。2.在XML数据库(即XML文档集合)中搜索用户需求DT在实际应用中,普遍发生的情况是从某一XML数据库S[T]中搜索同用户需求DT相关的信息。对于庞大的XML数据库而言,不可能从中拿出每一个文档同DT加以比较,尤其是当用户一次提出多个搜索需求DT或多个用户同时提出需求时,其运算的量也将加大,为解决这一问题,本文对XML数据库进行预处理,将那些同DT相关的信息先整理出来,以备后用。这种想法对于多需求的搜索来说尤为重要。首先,本文对数据库的预处理进行了研究,基本思想是:将用户的搜索需求DT归入到XML数据库S[T]中,形成新的XML文档集合S’[T]。在新的文档集合S’[T]上进行聚类操作,以找到那些在结构和描述内容上同DT相关的文档。其次,针对XML本身所具有的结构化,自描述性等特点,在聚类操作中引入了PBC(Path-Based-Clustering)聚类算法,并分析了该算法在用于信息搜索时的不足,根据这一不足提出DTD映射的概念并加以改进,解决了诸如“结点缺失”“结构拓展”等问题,使算法对同一结构的不同组织方式的辨别能力更加灵活,与此同时,DTD映射中所创建的路径表识结点Ai和“层次”属性有助于进行搜索和匹配度运算(第三章)时对被搜索内容进行准确的定位。在文章的最后部分,本文还在已做讨论的基础上给出了基于XML的信息搜索模型。
其他文献
对于第三代移动通信系统而言,由于CDMA是公认采用的方案,所以克服CDMA系统中多址干扰的盲多用户检测和其它关键技术便是研究的热点之一。一般的研究方法是将各个关键技术分割
作为未来手机的发展方向,智能手机越来越受到生产厂商和消费者的青睐,其中以NOKIA公司主推的Symbian平台技术最为成熟,而作为小范围无线通信标准的蓝牙技术也在智能手机上找
微波功率均衡器能够调节微波信号在宽频带的幅频响应特征,因此在微波通信领域和雷达系统中发挥着重要的作用,随着技术的发展,雷达、微波通信、卫星通信、移动通信等设备对微波宽