数据空间集成与查询关键技术研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户：haozhizhegogo

【摘要】

：

在过去的十年,互联网、云计算、大数据以及移动互联等技术得到蓬勃发展,这使得当前数据呈现出体量巨大、种类繁多、动态演化和松散关联等新特点。传统的数据库管理技术无法管

【作者】

：

祝官文

【出处】

：

哈尔滨工程大学

【发表日期】

：

2016年期

【关键词】

：

数据空间数据模型实体划分多维索引 top-k近似子图查询

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

在过去的十年,互联网、云计算、大数据以及移动互联等技术得到蓬勃发展,这使得当前数据呈现出体量巨大、种类繁多、动态演化和松散关联等新特点。传统的数据库管理技术无法管理这样的数据,因此,研究新的数据管理技术来驾驭这些数据就显得尤为必要。数据空间技术应运而生,并引起数据库社区和工业界广泛关注。然而,数据空间在数据集成与数据查询方面仍然存在许多尚未(或未完全)解决的问题。例如,缺少表示异构数据以及复杂语义关系的数据模型;缺少面向动态演化环境下的数据空间实体划分技术;缺少支持具有高倾斜分布、大规模异构数据的多维索引技术;缺少无缝搜索异构数据、表达力较强的近似查询技术等。本文立足于数据空间集成与数据查询方面的研究,旨在能够统一地管理各种结构化、半结构化与非结构化数据,并且能够高效地、无缝地搜索这些异构数据,从而为“Pay-as-you-go”方式集成数据提供基本保障,进而提供“Best-effort”的数据空间查询服务。针对上述问题,本文将从以下方面展开深入细致的研究。首先,针对数据空间中异构数据具有上下文依赖性以及语义关系具有复杂性特点,对数据空间表示模型进行了研究。通过一个案例分析了传统数据空间模型(如解释对象模型)的缺陷,提出了一种基于上下文感知的复杂语义关联网络模型(COSAN)。具体而言,(1)在传统解释对象模型基础上,考虑异构数据的上下文依赖性,形式化地定义了上下文感知的异构数据表示方法。该方法把上下文信息与数据源的结构化、半结构化以及非结构化信息统一封装为上下文感知的解释对象,从而表达上下文感知的异构信息;(2)为克服传统数据模型只能表示简单二元语义关系的缺陷,通过一组约束组件(如上下文约束、顺序约束和聚合约束等)扩展了传统的二元语义关系,形式化地表示了复杂语义关系;(3)在公开数据集DBLP上进行了大量实验,实验结果验证了该模型的有效性和可行性。其次,针对数据空间实体具有信息丰富性、类别滞后性以及动态演化性特点,对面向数据空间的实体划分技术进行了研究,提出了一种基于演化K-Means的数据空间实体划分方法。具体而言,(1)提出了一种基于轮廓值和KL-散度的演化K-Means聚类框架。该框架不仅考虑当前聚簇的质量(即,快照代价),还考虑了若干典型的历史聚簇结构的时间平滑性(即,历史代价);(2)通过综合使用实体自身的丰富信息和实体间的历史出现模式信息,设计了一种面向数据空间实体的相似性度量方法,从而较准确地度量实体间的相似性;(3)根据启发式规则,提出了一种基于相似性密度的演化K-Means聚类算法,较好地解决了初始点选择问题和在演化环境中数据空间实体划分问题;(4)扩展了演化K-Means聚类框架,以处理簇数量随时间发生变化、快照实体随时间加入或移除的情况;(5)在公开数据集DBLP上进行了大量实验,实验结果表明本方法优于传统已有的方法,它不仅能高质量地捕获当前实体聚类结果,还能健壮地反映历史聚簇情况。再次,针对传统数据空间索引方法无法适用于高倾斜分布的大规模数据的问题,从负载均衡和划分角度对数据空间多维索引技术进行了研究,提出了一种基于负载均衡和查询日志的数据空间多维索引方法,旨在保持各个索引节点负载均衡、减少查询通信开销、提高数据空间查询处理性能。具体而言,(1)在垂直划分中,聚合在查询日志和实体中频繁出现的token词,以减少查询涉及倒排列表的聚合/合并开销。在此基础上,结合超图理论和用户查询与倒排列表间访问模式信息,把垂直划分问题进一步归约为超图划分问题,从而保持垂直划分的负载均衡;(2)在水平划分中,结合超图理论和用户查询与实体间访问模式信息,把水平划分问题归约为超图划分问题,从而保持水平划分的负载均衡;(3)结合垂直划分和水平划分策略,构建了二维混合索引。在此基础上,从查询吞吐量与容错率角度考虑,利用索引副本策略,进一步扩展为三维索引;(4)在公开数据集DBLP上进行了大量实验,实验结果表明本方法在吞吐量、查询响应时间及扩展性等方面优于已有方法。最后,针对传统数据空间查询语义、查询结构较简单的缺陷,对面向数据空间的top-k近似子图查询技术进行了研究,提出了一种基于邻域结构的top-k近似子图查询方法。具体而言,(1)形式化地定义了数据空间中top-k近似子图查询问题,在图管理理论基础上,提出了一种新型的数据空间查询语言GQL;(2)通过综合利用顶点距离邻近性信息和边标签分布性信息,设计了一种基于邻域结构的图相似性函数;(3)基于索引技术和邻域结构特征,提出了一种基于邻域结构的匹配顶点剪枝算法,从而剪枝掉大量无希望的候选匹配顶点;(4)通过考虑顶点剪枝策略和顶点匹配顺序,提出了一种面向数据空间的top-k近似子图搜索算法;(5)在真实数据集DBLP上进行了大量实验,实验结果表明该方法在查询效果、查询效率和扩展性方面明显优于已有方法。

其他文献

四川省住宅市场发展非均衡性分析

本文根据住宅市场供求和供求非均衡性的基本理论,结合四川省住宅市场的实际情况,对四川省商品住宅一级市场的供给和需求的非均衡性从总量上和结构上进行了实证研究,并分析了

期刊

商品住宅住宅供给住宅需求非均衡

基于机器视觉的锄草机器人快速作物识别方法研究

随着人们对食品安全问题日渐重视和环保意识的不断提高,化学除草受到越来越多的限制。机械除草相比化学除草和人工除草具有污染少、效率高的优点,顺应农业可持续发展的趋势。

学位

除草机器视觉图像处理作物识别

试论《金瓶梅》中的“帘子”意象

《金瓶梅》是我国第一部人情小说,"帘子"这一意象与家庭、女性关系密切,在小说中反复出现,贯穿始终。在中国独特的文化语境中,"帘子"具有丰富的内涵。首先,"帘子"贯穿潘金莲

期刊

金瓶梅帘子意象

图像时代的设计伦理关怀

[摘要] 得益数字技术的迅猛发展,随着视觉文化转型的完成,图像时代到来。这种文化艺术形态的转换引发了一系列新的伦理问题,当代社会面临“景象的高度堆积”、“拟像”遮天蔽日;人们在虚拟的图像世界中不断遭遇审美困惑;图像复制技术的日益渗透冲击了设计艺术的原创思想;长期被动浸淫在图像中带来创造性思维疲软;忽视人性关怀的图像暴力行为导致的心灵伤害等等。这些对于图像的设计和制造者来说是应当被关注的。　　[关

期刊

图像时代设计伦理图像复制技术数字技术

多灾种风险评估研究进展

随着灾害风险研究的深入,多灾种风险得到了越来越多的关注,多灾种风险评估理论与方法被逐渐提出并在部分区域得以应用。在厘定多灾种以及多灾种风险基本概念的基础上,系统综

期刊

多灾种多灾种风险风险评估

湿润烧伤膏治疗龟头包皮糜烂31例体会

目的:分析湿润烧伤膏治疗龟头包皮糜烂的临床效果,探寻临床治疗龟头包皮糜烂的有效手段。方法:对31例龟头包皮糜烂患者应用湿润烧伤膏治疗,并进行随访观察。结果:治愈率83.9%

期刊

湿润烧伤膏龟头包皮糜烂治疗

带闪发器中间补气的R32空气源热泵系统性能实验研究

回回产卜爹仇贱回——回日E回。”。回祖一回“。回干肉果幻中 N_。NH lP7-ewwe--一”＄ MN。W;- __._——————》砧叫]们羽制作:陈恬’＃陈川个美食 Back to yield

期刊

空气源热泵闪发器中间补气制冷剂R32

探析大学生消费偏高的成因与对策

[摘要] 大学生的消费观与人生观、价值观紧密相联，如果我们不重视新时期大学生消费心理的研究，不去探讨大学生消费观的变化及其规律，将不利于大学生的成长。本文就大学生消费偏高的原因做出分析，力求找到应对大学生消费偏高的对策。　　[关键词] 消费消费偏高成因对策　　　　近几年来，我国的社会生产力获得了长足的发展，城乡面貌发生了巨大变化，由此也使得人们的消费观发生了很大变化。这些变化必然直接或间接

期刊

消费消费偏高成因对策

数据空间集成与查询关键技术研究

其他学术论文