不确定性数据Top-k查询算法与实现

来源 :贵州大学 | 被引量 : 0次 | 上传用户:X446873887
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现在各种网络数据、GPS数据、传感器数据等大量涌现于日常生活之中。由于数据的记录和传输方面存在的问题,这些数据一般都存在噪声、数据丢失、测量不精确或不完整等现象,因此大数据往往也伴随着不确定性。现在越来越多的场合急需处理这种类型的不确定数据。由于数据来源范围广,数据量大等原因,大数据往往价值密度很低,对人们真正有用的数据却是小部分数据。然而,用户往往只关心符合自己需求的少部分数据,因此至关重要的是如何快速获得自己需要的那部分数据。从而对不确定数据的排序、检索成为了当今课题研究热点。高效的Top-k查询返回的是最能满足用户查询条件的k个结果,越来越受到研究者的重视。不确定数据的查询排序问题,其实就是首先确定一个特定意义的排序语义规则,然后根据此语义规则形成相应的算法,最后用这个算法对不确定数据进行Top-k查询排序从而得到相应的Top-k排序结果。元组的属性值和概率是不确定数据的两个基本属性,也是Top-k排序语义规则生成的依据,分值与概率的平衡问题一直是不确定性数据Top-k查询的焦点问题。最近几年,学者们也基于自己的偏好或需求,采用不同的分值和概率平衡方式提出相应的Top-k查询语义和算法。最经典语义有:U-topK,PT-k,E-Score Rank,PRF等。这些Top-k查询都是基于特定场景和特定需求生成的,一种查询语义一般只适合一种用户查询偏好。Li采用Kendall距离对同一数据集上不同Top-k查询语义得到的Top-k排序结果进行比较,发现结果差异显著。Li等人进一步提出了一种综合的参数化排序语义函数PRF。Top-k查询语义不但没有很好的普遍适应性,而且一些Top-k查询语义还存在缺点与不足,有待提高和完善。另外,现有Top-k排序算法最好也只是多项式时间复杂度的,这样的算法在应对更大规模数据挑战时显得力不从心,因此不确定数据Top-k查询算法也急需改进与提高。针对以上问题,本文做了一些相关研究,本文的主要贡献如下:第一:运用新的迭代思想和迭代函数,利用Java编程语言实现位置概率迭代算法。第二:改进了E-Score语义,提出新的Top-k查询语义PPE-Score查询语义,并且提出相应的算法。第三:提出了新型的基于位置概率的剪枝技术PP-Pruning剪枝技术,并把PP-Pruning剪枝技术运用到其它Top-k查询算法中,并用实验验证。
其他文献
二部图在图论研究中占有相当重要的位置.人们在研究中发现了一类具有下列性质的二部图,即图X的全自同构群Aut(X)包含一个在X的二部划分上作用分别正则的子群,这类二部图称为双Ca
本论文共分为三章: 第一章引进了单投射模的概念,给出单投射模的等价条件,并讨论了它的一些性质;进一步地,介绍了SP-环的定义,汪明了SP-环是Mortia不变的,并利用单投射模刻画了左
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
期刊
Buffon投针问题是最早的一个几何概率问题,在一定意义上说,它也是一个具有代表性的影响最大的几何概率问题.Buffon问题问世二百余年以来,已有各种推广研究,其中最重要的推广是:将小
口语交际能力是现代公民必须具备的基本能力,对于农村的学生而言具有更为重要的意义,是他们走向成功的必备素养。小学阶段的口语教学应该从创设具体可感的情境、搭建多维互动
随着电子商务的发展,考虑参与者的自利性,理性安全协议的设计和研究备受关注,公平性和安全性是理性安全协议尤为重要的性质。虽然交替时序逻辑和交替时序认知逻辑可对传统安全协
资源种数为M的资源分配问题就是M维资源分配问题,它是指将M种资源分配给N个部门,使之产生最大的生产效益。对资源分配问题的研究相对成熟的是一维和二维资源分配问题。用于求解
需求分析日本饺子事件后,国家对出口商品的监管力度进一步加大,如何对出口商品进行有效的监控监管是目前当务之急的任务,山东省出入境检验检疫局在各种信息化进程中一直走在
近年来金融衍生产品在我国获得迅猛发展,为了应对国际金融市场所带来的机遇和挑战,这就要求我国的金融市场更加开放、金融市场的结构更加趋于合理、金融产品更加多样化,发展
广州番禺职业技术学院外语外贸学院以植入企业业务课程实施为载体,创建了高职院校与企业协同专业建设新机制,突出改革与创新,彰显协同创新育人本质.