【摘 要】
:
目前,互联网中越来越多的数据以XML的格式进行传输和操作,XML结构的灵活性使复杂的半结构化数据的交换更加方便。但是,在实际工作中,如传感器噪声数据、信息抽取时包含错误数
论文部分内容阅读
目前,互联网中越来越多的数据以XML的格式进行传输和操作,XML结构的灵活性使复杂的半结构化数据的交换更加方便。但是,在实际工作中,如传感器噪声数据、信息抽取时包含错误数据的数据源以及图像处理等用XML描述的半结构化数据会存在一些不确定性。作为不确定性数据研究领域的核心内容,概率XML能够以明确的方式表示不确定性数据,它是不确定性数据的结构化描述语言。
由于概率XML文档内数据的不确定性,通过传统的XMI,查询语言已不能够准确地查询出用户期望的信息。因此,在研究以往XML文档的关键字检索算法的基础上,本文提出了一个概率XML文档Top-k关键字检索模型,该模型主要包括概率XML文档分区处理、概率XML文档关键字索引构建以及概率XML文档Top-k关键字检索三个部分。
当进行概率XML大文档中关键字检索时,检索时间效率会明显降低,本文引入普通XML文档的分区技术(XMLPartition),将概率XML文档分区分别存储在相互独立的服务器节点中,对各分区节点并行执行关键字检索。
为了在概率XML文档关键字索引结构中体现分布结点类型信息,本文扩展了传统关键字索引编码方法-Dewey编码,设计了一种符合概率XML文档结构特点的关键字索引编码方法。
在此基础上,本文设计了概率XML文档Top-k关键字检索PTKS(ProbabilisticXMLTop-kKeywordSearch)算法,并实现了原型系统。实验结果表明,PTKS算法具有良好的时间效率,特别是针对复杂结构的概率XML文档的关键字检索时间效率提升更加显著。
其他文献
随着信息技术的飞速发展,人们日常的生活已离不开互联网。互联网给人们带来便捷的同时,由于多数网站不符合无障碍标准,使得残疾人无法像健全人那样方便的获取互联网信息。为
煤矿井下分站是煤矿监测监控系统的重要组成部分,是连接井下各数据采集模块与地面监控中心站之间数据传输的桥梁,承担了对井下各参数的采集以及实现分站和中心站之间所有数据
在教学管理部门的数据库中,存储了大量的学生各门课程的成绩数据,这些数据中隐藏着许多有价值的重要知识,如何挖掘出这些知识,对学生的学习和教学管理部门的教学管理,具有重
随着Internet的发展及信息的全球化,人们对不同语言的信息需求越来越多。对于大多数不精通外语的用户来说,想要获取需求的信息存在一定的难度。因此有研究者提出了对跨语言信息
随着生物分子序列数据的快速增长及人类基因组计划的实施,生物信息学逐渐发展起来。在生物信息学中,序列比对问题是生物信息学中最基本的也是最重要的问题之一,通过序列比对可以
随着近年来移动计算的快速发展,能耗问题越发地成为移动端图形应用的瓶颈。因此,限制绘制过程所需的能耗已成为新的需求。这篇文章中,我们提出了一个具有实时优化能耗功能的
脑组织图像分割在医学图像分析中具有重要的理论与应用价值。现有的很多图像分割方法都是基于传统统计学理论,是基于样本数趋于无穷大的渐近理论,而对于高维特征、小样本数的问
近年来,随着电子摄影产品的迅速普及,数字图像以惊人的速度涌现在网络上。如何从海量的图像中检索出所需图像成为一个亟待解决的问题。合理的图像标签顺序对图像检索和分析有
数据挖掘(Data Mining)是从存放在数据库、数据仓库或其他信息库中的大量的数据中获取有效的、新颖的、潜在有用的、最终可理解模式的非平凡过程。而关联规则挖掘作为数据挖
因为蛋白质在高温或极端PH值的环境下非常容易失去活性,这就造成了在一些极端环境中进行蛋白质的大规模的生产应用困难的局面,为此,蛋白质在极端条件下的热稳定表象成为了生物物