海量数据G-Skyline查询算法研究与实现

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:wskiqpk
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Skyline查询是一个典型的多目标优化问题,它旨在返回指定数据集中不受任何其他点支配的点。但是它主要集中于分析单个点。而在实际生活中,有很多种情况需要我们去考虑它们的组合的查询,G-Skyline查询算法的研究就旨在解决此类问题,帮助我们找到不受任何其他组支配的组。但是,由于G-Skyline的输出规模是庞大的,使得用户无法做出快速有效的决定,于是,以严格支配度为度量,返回严格支配分数最高的6)个组,从而可以控制G-Skyline查询的返回结果数量,帮助用户做出选择。本文的研究内容是G-Skyline查询算法和topk G-Skyline查询算法。在G-Skyline查询算法研究中,本文提出G-Skyline查询的基线算法,算法创建Directed Skyline Graph(简称DSG图)并取前层的点进行预处理,之后,将剩余的点递归枚举大小为的组。最后,依次判断生成的组是否为G-Skyline组;为了提高基线算法速度,本文提出了Append Unit of G-Skyline算法(简称AUGS算法),算法首先创建DSG图并修剪掉部分点。之后,通过预处理提前删除部分非skyline点。算法先确定G-Skyline中的skyline点,即4)-6)7)4)9)0)(1≤4)≤-1),然后添加符合条件的-4)个非skyline点。添加非skyline点时,算法通过条件判断和子集剪枝,提前剪枝不符合条件的点。之后,采用添加单元组的形式添加非skyline点,对4)-6)7)4)9)0)填充符合条件的单元组,组成组大小为的G-Skyline组。最后,通过将AUGS算法与Point-Wise算法和Unit GroupWise+算法进行对比,验证算法的有效性。在top-k G-Skyline查询算法研究中,本文首先提出了top-k G-Skyline查询的基线算法,算法首先找出所有G-Skyline组,然后计算其支配分数,最后返回支配分数最高的k个组;为了提高基线算法的速度,本文提出Early Termination算法(简称ET算法)和Quick Termination算法(简称QT算法)来有效的计算top-k G-Skyline结果,算法首先枚举出只由skyline点组成的G-Skyline,基于此找出支配分数最高的k个G-Skyline组。实验发现,当数据量变大,维度增高时,枚举是相当耗费时间的,而算法的花费时间也主要是由这部分决定的。所以,本文重点关注枚举过程,首先提出ET算法,ET算法运用了上界剪枝和早终止策略,不需要枚举出所有只由skyline点组成的G-Skyline即可返回结果。但是,ET算法在递归枚举过程中依旧存在不必要的枚举。于是,基于ET算法,本文提出QT算法。QT算法相较于ET算法增加了早剪枝策略。通过早剪枝策略,可以提前终止单次枚举过程,加快算法整体速度。实验证明ET算法和QT算法在运行成本方面具有令人满意的性能。本文提出all Top-K G-Skyline查询的概念,即可以一次性求出组大小从1到的,严格支配度分数最高的×6)个组。并提出了Fast算法有效处理all Top-K G-Skyline查询。
其他文献
在全球范围内,肺癌正逐渐成为癌症致死的主要原因。大多数肺癌是由恶性结节引起的,肺癌早期诊断需要在胸部CT(Computed Tomography)图像中查找肺结节。近年来,计算机辅助诊断方法成为人工智能领域和医疗图像领域研究的热点,在智慧医疗和快速诊断方面有着实际应用价值。本论文基于胸部CT图像针对肺结节辅助诊断方法进行研究,主要包括肺结节检测、肺结节分割和肺结节良恶性分类。本文具体研究内容如下:
随着《中国制造2025》规划和“十四五”国家重点研发计划颁布和实施,3D打印技术在航空航天、汽车制造、智能装备、生物医药等领域发挥的作用将进一步提升。熔融沉积式(FDM)3D打印技术作为3D打印技术应用最为广泛的形式之一,受到越来越多研究人员的关注。目前对FDM型3D打印喷头的研究中,对于挤出口尺寸可调节的喷嘴研究有限。挤出口尺寸固定的喷嘴在打印时需经过点—线—面—体成型,打印速度慢,打印效率低。
随着工业互联网的发展,世界各国正在围绕工业制造进行数字化革命,加速构建智能化生产、个性化定制和协同生产等特征的工业新生态。领域知识库作为一种特殊且常用的数据库,高效率地构建领域知识库是目前研究的主要难点。然而在以往的研究中,大多数学者忽略了本体所能表达的详细内容。领域知识是复杂多样的,通过现有的本体描述方法无法较好的展示领域知识。另外工业互联网是全新的工业生态。工业机理在工业生产中十分常见,是包含
企业可持续成长是引领中国经济高质量发展的关键。由于疫情爆发、新兴产业冲击、盲目转型等诸多原因,企业成长速度明显放缓。面对复杂严峻的国内外经济环境,企业亟需培育成长新动能。现有研究仍主要聚焦于传统工业时代内外部因素对企业成长的影响,忽视了数字经济时代下,数字技术应用在企业成长中发挥的重要作用。数字技术应用作为企业成长的新动能,对企业成长产生重要影响。数字技术应用能够加快企业对市场动态的反应,帮助企业
得益于互联网的飞速发展,社交网络应用平台已经成为最大的舆情发酵中心,产生了大量反映社会舆论倾向的数据,这些数据文本立场明确、网络组织结构离散、内容特征稀疏,而现有舆情相关研究一般聚焦于文本情感、网络结构或用户属性。本文从立场群体出发,展开热点话题提取、文本立场检测和群体挖掘三方面研究以呈现舆情全貌,主要研究成果如下:第一、热点话题提取方法研究。现有方法不是操作流程繁琐,聚类与话题词提取任务分离,就
语音是人们日常生活中获取信息的重要途径,使用机器模拟人类发声输出语音信息在智能设备等诸多领域有着广泛应用。在语音合成领域中,先后出现了传统的波形切分重构的拼接合成方法、修改韵律声学特征的语音合成方法和使用隐马尔可夫模型的统计参数语音合成方法。但是由于这些传统合成方法具有对数据集依赖较强、合成语音具有明显拼接痕迹、合成系统流程繁琐的特点,难以在实际中投入应用。近年来,机器学习、深度学习的相关技术蓬勃
目前神经外科穿刺手术主要依靠医生的手感和经验实现,手术成功率有限。并且由于计算机视觉技术的迅速发展,三维重建技术逐渐成为一项成熟并应用广泛的技术,但是三维重建技术,在临床医学上的使用很有限。因此,本文将对双目视觉三维重建技术进行研究,实现对患者头部局部区域的体表三维模型重建。将其应用到神经外科穿刺手术中,配合三维治疗模型,为手术提供非接触式的定位与导航。首先模拟手术室环境,根据手术室中的无影灯照明
互联网信息时代的到来,人们与信息的关系发生了显著的变化。接触的信息日益增多,接触新的信息也变得日益简单,因此如何从海量数据中提取中心内容成为新时代背景下提高人们工作效率和生活水平的关键之一。自然语言处理下的文本摘要技术,即是解决该问题的重要技术。文本摘要技术要求基于海量语料训练模型,将长文本输入模型,模型输出高度概括原长文的文本摘要。在此基础下,可控文本生成又有着比较广泛的应用场景,本研究聚焦于长
随着近些年对太空探索的加速,愈来愈多的故障航天器被遗留在地球轨道周围,造成资源的浪费,影响后续的探索开发任务。受限于进行捕获任务的航天器容积,只需依靠小体积相机获取信息的视觉技术便成为捕获过程中的研究重点。在捕获过程中,按照相对距离由远及近的变化,依次需要通过视觉技术完成对于捕获目标的精确检测、目标跟踪、近距定位等任务,利用这些视觉信息控制伺服机械装置,从而完成捕获任务。本文依据基于深度学习的目标
可穿戴应用场景目前不断涌现,有效提升了个人和团队的工作效率。在团队协同执行任务的过程中,穿戴式设备能够提供AR辅助、人脸检测、数据融合等功能。这些功能方便了团队协作,也对穿戴式设备的计算和续航能力提出了极大的挑战。为提升可穿戴设备的性能,边端协同的方案得到迅速发展。通过利用边缘的计算优势,可以有效降低穿戴设备的能量消耗、提升服务质量。弹性策略是边缘计算中的一项关键技术,目的是及时分配资源给应用,已