不确定数据的概率聚集最近邻查询方法研究

来源 :哈尔滨理工大学 | 被引量 : 0次 | 上传用户:zengguiyeah3
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
空间数据查询问题在地理信息系统、基于位置的服务等相关领域都有着广泛的应用价值。最近邻查询是其中的一种基本问题,通过计算数据点到给定查询点的距离,返回使该距离达到最小的数据点。为了满足不同的查询需求,对最近邻查询问题进行了扩展,其中聚集最近邻查询是求解到查询点集的聚集距离最小的数据点,成为了近年来研究的重点。传统的聚集最近邻查询处理的均为确定性数据,但由于数据本身的不准确、填补缺失值、粗细粒度间的数据转换等原因,使得空间数据引入了不确定性,不确定数据也逐渐成为了人们研究的热点问题。而传统的近邻查询方法无法处理不确定数据,因此本文基于不确定Voronoi图,研究了不确定数据的聚集最近邻查询相关问题,主要研究内容如下:首先研究了不确定数据的概率阈值组k最近邻(PTGk NN)查询问题。PTGk NN查询问题对应于聚集最近邻查询中的sum函数,因其应用范围更广经常被单独讨论。由于不确定数据的特殊性,其近邻查询问题涉及到大量的概率值计算,这成为了影响CPU时间的主要因素,所以需要避免无关数据点的计算。本文提出了PTGk NN算法,采用不确定Voronoi图的性质过滤掉一部分数据点,并根据该查询问题的特点设计相应的剪枝规则,得到候选集合,可以有效减少结果集合概率值的计算量。进一步研究了概率阈值聚集最近邻查询问题。提出了PTANN算法,针对三种不同的聚集函数设计了相应的剪枝规则,并讨论了新增或移除数据点对原有查询结果的影响。最后研究了概率阈值障碍k聚集最近邻查询问题。解决了传统近邻查询无法处理障碍物的问题,提出了障碍聚集距离的计算方式。提出了PTOk ANN算法,对于给定的一组查询点集合Q,返回到Q的障碍聚集距离最小的k个数据点,更加符合实际应用的需求,并结合障碍物的存在设计了适合于不同情况下的剪枝规则,有效剪枝不可能成为结果的数据点。
其他文献
近年来,医学图像处理已经成为计算机视觉领域的研究热点。肺炎影像类型判别目前主要依靠医生的经验,医院需要设置专门的科室和人员进行判断,这样费时费力,而且一些肺炎的CT影
伴随着科技的飞速发展,计算机网络在人们的日常生活中起着愈来愈重要的作用。如何研究网络,使其更好地服务于人类,已成为学术界的研究热点。网络模拟作为研究计算机网络的一种方
生产制造业中的调度方法,从根本上可以分成以下两类:一类是针对大批量相同品种产品的流水作业调度方法,另外一类是针对小批量不同品种产品的车间作业调度方法;主要采用纯加工调度或者纯装配调度。综合调度算法可以将产品加工和装配高度并行处理,避免了产品内部制造过程的割裂,其中多车间的综合调度算法更加符合现阶段的生产制造要求。对于单件复杂产品在设备资源对称的二车间综合调度的问题,目前的研究成果还未考虑动态实质路
随着信息化的进程,计算机系统越来越深入地融入了国民经济的各个领域,人们对计算机系统的依赖程度与日俱增。尤其是军事、金融、电信、航空航天等国民经济关键领域,不仅需要计算
有序抖动半调图像已被广泛应用于连续色调图像的打印、印刷和显示中。因此研究针对其的高效压缩方法对这类图像的存储、记录和传输有着非常重要的应用价值和现实意义。本文介
目前,随着半导体工艺不断发展,电子系统也具有更高的集成度,而处理器的性能也有了较大的提高。高性能处理器低功耗、高性能的特点给处理器的可靠性带来了负面效应,带来了频发的硬
如今互联网庞大的规模、复杂异质的管理体系使得诸如IPv6、安全路由、PIM-SM等技术难以大规模部署和应用,从而导致互联网在技术创新上面临僵化境地。T. Anderson等人提出的网
随着Internet的快速发展,互联网上的信息越来越丰富,面对爆炸性增长的信息,我们需要采取新的技术手段来管理和挖掘互联网信息。一个好的系统平台是提供优良的信息挖掘服务的基础
心脏电生理建模和仿真有助于人类掌握心脏组织中电传导规律和心脏疾病的发病机制及预防方法,已被成功应用到科学研究、疾病诊断和预防、药物研发等领域。随着心脏几何数据的
随着互联网技术的不断发展,出现了各式各样具有很多丰富功能的网站,人们对网络的需求也不只满足与以往的看新闻,查资料,越来越多的人喜欢在网络中记录自己日常的生活,用简短的状态