基于多粒度特征的XML关键字检索研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:bohecha_j
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,XML的广泛运用使其迅速成为互联网上数据表达和交换的标准,网络中XML文档的数目以指数级形式不断增加。而关键字检索作为一种高效的信息检索模式,目前已经广泛应用到XML文档检索领域中。最近的研究大多围绕“近似关键字查询”主题展开了研究,但是由于关键字本质上具有一定的模糊性和不精确性,因而不能准确地描述用户真实的查询意图,检索结果也不尽如人意。一方面,执行关键字检索时可能返回大量的检索结果,因而检索结果聚类是返回高质量检索结果的重要手段;另一方面,同一个聚集中必然存在多个候选结果能够匹配关键字查询,基于聚类内部的排序机制也是实现高效查询的重要途径。本文围绕解决“返回有意义的XML聚类结果”现象展开了研究,针对XML检索结果聚类和聚类内部检索结果排序这两个方面进行了数学建模和算法分析。因此,提出了基于多粒度特征的XML关键字检索方法。在该方法中,提出了聚类紧密度(Cluster Compactness Granularity, CCG)的聚类相似性度量方法,从而将相似的检索结果聚簇在一起,形成了若干与查询意图相关的聚集。此外,提出了子树紧密度(Subtree Compactness Granularity, SCG)的查询相关性度量方法,区别于传统的信息检索排序机制,该粒度实现了基于聚类内部的候选匹配子树的排序。其次,本文定义了紧密LCA (Compact LCA, CLCA)语义,通过消除冗余的LCA节点从而解决了识别相关匹配的问题,其次识别出错误过滤掉的LCA节点进而解决识别相关不匹配的问题,并且从本质上避免了基于SLCA方法的屏蔽效应以及隔离性的问题。本文设计实现了基于图的算法XEdge,将CLCA语义、CCG以及SCG粒度三个特征有机地融合在一起,并且将其与算法XSeek与XKLUSTER在聚类数量、查准率和查全率三个方面进行了对比和分析。实验结果表明XEdge能产生高质量的XML聚类结果,同时具有更好的检索性能。
其他文献
“第二届数字时代中美图书馆与情报学教育国际研讨会”于2006年10月9日—11日在武汉大学召开。会议主要由13场专家报告与3个专题研讨会组成,专家及会议论文作者主要对以下4个
随着社会经济环境的不断变化,人们的生活品质逐渐提升,对建筑工程的需求逐渐增加,为建筑工程发展创造了良好的条件。但与此同时也相继暴露出了安全问题。因此,必须不断加强高
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
本项目计划通过对广东外语外贸大学南国商学院国际班2+2 中外合作项目的2013—2015 级毕业生进行调查,将就业数据进行分析与统计,从环境影响、教育影响、就业政策影响等角度
一锅法分别合成了巯基乙酸和巯基丁二酸稳定的碲化镉量子点,研究了两种量子点在Ca^2+或Mg^2+存在下与大肠杆菌及枯草芽孢杆菌的相互作用。研究发现,在一定浓度的Ca^2+或Mg^2+
针对采棉机采棉头核心部件摘锭易磨损、易折断的工程实际问题,根据采摘系统的结构特点和振动特性,建立该系统单自由度干摩擦振动模型,考查摘锭在摩擦力作用下的动力学响应,分
目前,我国动物疫病的防治工作仍旧存在着较多的隐患问题,需要工作人员予以及时地解决。且在新形势下,只有通过不断完善动物疫病防治水平,才能让养殖人员真正地意识到疫病防治
<正>现代医学中各种心脏病导致的慢性心力衰竭,其主要临床表现为心慌气喘,不得平卧,烦躁不安,腹大腿肿,小便短少,恶寒肢冷,皮肤紫绀,舌胖,脉数.这些临床表现属于中医心水病的
婴幼儿秋季腹泻目前西医对之尚无特效药物治疗,多为对症处理.中医中药虽有较好疗效,但口服很难为患儿接受.实践证明,应用654-Ⅱ止泻穴注射简便易行,副作用少,疗效显著.