不确定数据上的相互最近邻查询

来源 :南京大学 | 被引量 : 0次 | 上传用户:dwlqw008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着当代计算机技术和信息技术的不断发展和应用,各种领域都通过越来越多的手段产生大量的数据。但由于数据收集方式造成的误差,和数据本身的不确定性等原因,使得采集到的数据往往都是不确定的,这就是不确定数据。它是一种不同于传统类型的新型数据,数据中的不确定性采用概率或置信度表达。不确定数据上的最近邻查询是从目标数据集中查找距离查询对象较近的对象,在诸如决策制定、模式识别、数据挖掘等应用中具有重要的应用。而相互最近邻查询作为一种特殊的最近邻查询,近些年引起了越来越多研究者的关注。  近些年来国内外对不确定数据上的各种最近邻查询及其相关问题进行了深入而广泛的研究,而不确定数据上的相互最近邻查询相对较复杂,目前关于它的研究尚少。传统的算法也无法应用于不确定数据上的相互最近邻查询,因此本文对不确定数据上的相互最近邻查询进行了研究,并提出了在三种不同应用场景下的相互最近邻查询算法。本文的主要工作如下:  首先,根据候选对象之间的空间关系和不确定性,设计了一组用于对候选对象集合进行裁剪的裁剪规则,分别是最小最大距离裁剪规则,几何覆盖裁剪规则,半空间裁剪规则以及概率裁剪规则,其中前三种裁剪规则都属于几何裁剪。  其次,运用上述的裁剪规则,分别给出了三种不同应用场景下的相互最近邻查询算法:(1)当查询数据集和目标数据集分别为不确定数据集和点数据集,查询对象是一个不确定数据对象时,在目标数据集中查找前Top k个以较大概率成为查询对象的相互最近邻的点对象;(2)当查询数据集和目标数据集分别为点数据集和不确定数据集,查询对象是一个点对象时,在目标数据集中查找以大于给定阈值的概率成为查询对象的相互k近邻的不确定数据对象;(3)当查询数据集和目标数据集为同一个不确定数据集,查询对象是一个不确定对象时,在数据集中查找以大于阈值的概率成为查询对象的相互最近邻的不确定数据对象。  最后,实验结果表明,上述的算法具有较好的收敛性和稳定性,能更好地应用于不确定数据上的相互最近邻查询。
其他文献
在计算机网络技术和无线通信技术的大力推动下,互联网正在朝数据通信网络、蜂窝无线网络和广播电视网络三网融合的方向演进,伴随出现了异构网络环境、多模通信终端和多样性的应
局部特征在计算机视觉领域有着广泛的应用,相对于整体特征,局部特征标记出了图像中的重要区域,将图像信息用这些区域来表示,能够在表示图像局部重要信息的同时,节约了应用时的计算
随着互联网技术的蓬勃发展、网络互动社区等新兴应用的日益丰富以及企业信息化建设的高速发展,互联网社区用户数量急剧膨胀,各种新的需求和应用形式不断涌现,企业每天产生的各种
互联网的飞速发展使得其中的信息呈爆炸性增长,但互联网中的信息由于其本身的无结构性使人们很难找到自己有用的资源。如谷歌、百度等通用搜索引擎为我们提供大量的信息,但其中
统计机器翻译的首要工作是获取双语词对齐信息,而词对齐需要从词边界清晰的双语语料中训练才能得到。因此,在涉及中文的统计机器翻译系统中,首先需要对中文语料进行分词处理。可
一致化理论在自动推理、自然语言理解、逻辑证明、重写理论等研究领域中有着广泛的应用。目前语法一致化因子的产生算法和工具已经相对成熟,但还没有产生等价一致化因子的实
当今时代,嵌入式系统已经无处不在。从早期的通信设备、工业控制等领域已经很快的发展到与人们日常生活密切相关的电子产品领域中。同时,嵌入式系统也变的日益复杂,嵌入式操
在单元测试领域,测试充分度准则一直是研究的热点。到目前为止,学术界提出了各种不同的测试充分度准则。Richardson和Thompson在他们的研究成果即RELAY模型中提出了一种错误传
科学技术的发展和新兴商业模式的出现带来了多种类型数据的产生和积累,例如天文数据、社交数据、电商数据等。利用机器学习技术进行数据分析并挖掘数据中蕴含的知识和规律具有