一种面向近似查询的图数据库索引方法

来源 :东北大学 | 被引量 : 0次 | 上传用户:yyslzm2007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图论是组合数学领域的一个分支,20世纪60年代末,随着计算机技术的产生和发展,组合数学,特别是图论理论得到了人们越来越多的关注,时至今日,人们面对的计算模型以及数据结构仍然在变得越来越复杂,由于图可以很方便的表示关系数据模型,因此图论中的许多与关系数据表示相关的理论及算法被广泛的应用到数据建模以及数据库设计领域中来。   在数据库设计中,图结构经常被用来存储以及表示关系数据,例如一些复杂的文档格式(XML文档),蛋白质化学结构,大分子的化学式,向量图形等等,图论中的一些基本算法如最小生成树算法,最短路径算法,以及完美匹配算法也是许多最优调度问题的基础,最近的一些图论的成果已经被大量应用在图像处理,生物信息学,以及网络拓扑结构的研究中。   图的匹配是图数据库领域中近年来一个热点的研究问题,即对于一个包含大量图的集合,如何在这个集合中迅速找到满足给定查询要求的答案。相比于精确图查询,相似性查询是一个较为新颖且难度较大的问题。针对这个问题,本文对图数据库中的相似性查询方法以及数据库的索引方法进行了深入研究,提出了一种在大规模图数据库上建立索引以加快相似查询速度的高效方法。本文的主要工作总结如下:   (1)本文首先提出了一种新的衡量图相似性的标准,这种标准利用编辑距离的定义方式,很精确地表达了两个图之间的近似程度,相对于其他度量方式,编辑距离能好的反映两个图之间基于编辑操作的相似性,从而更方便地描述图和图之间的转化关系。   (2)针对以往方法只能在两个图上做编辑距离计算的不足,利用一种新的索引结构——k-邻接子图,提出了一种基于邻接子图比对的数据库倒排索引方法以避免时间和空间效率都很差的顺序查找。这种方法在编辑距离阈值相对不大的稀疏图数据库查询中有很好的过滤性能。   (3)由于邻接子图匹配在子图规模较大时的高复杂性,我们进一步提出将邻接子图以邻接树的形式表示的方法,通过放宽严格的同构匹配条件,并利用在图的邻接树上做伪同构匹配的方法,加快了数据库索引的构造以及提取在线查询的特征信息的速度。   (4)在邻接子树以及邻接子图索引过滤原理的基础上,本文设计了一种高效的相似性查询过滤算法,并将其与目前应用广泛的另外一种方法G-Index作了全面的比较。实验证明,k-邻接子图索引在编辑距离查询阈值相对不大的情况下过滤后所得到的候选集可以很好的趋近真实结果集,并且k-邻接子图索引的平均运行时间要远远小于G-Index索引。  
其他文献
随着互联网技术的发展,网络黄毒日益泛滥。这不仅严重影响青少年身心健康,而且也给人们日常生活带来诸多不便。如何过滤不良信息是个重要的研究课题。本文以此为背景,依托于
随着机器翻译技术的不断发展,对完全句法分析质量的要求也越来越高。由于完全句法分析(full parsing)要确定句子所包含的全部句法信息,并确定句子中各成分之间的关系,这是一
随着电子商务等应用的日益增多,对Web数据库的访问逐渐成为获取信息的主要手段,而传统的数据库检索技术只能返回满足用户查询条件的结果,完全没有考虑到用户的偏好和兴趣,不
随着信息科技的发展,人脸识别技术正日益显示出其价值,因此受到了研究人员的广泛关注。目前,研究人员提出了各种有关人脸识别的方法,也取得了一定的成果。但是由于多种因素会
在无线局域网接入互联网环境下,无线链路固有的特征(如高误码率、RTT变化大、主机切换等)导致基于固定主机和有线网络设计的传统TCP在无线环境下有很大的局限性。其中一个主
水电仿真系统是一个大型综合的实时仿真系统。水电仿真系统根据特定仿真算法产生运行数据来模拟水电站运行。能够模拟水电站的各种工况,包括开机、停机以及并网之后的工作状态
分布式网络系统具有资源共享,通信便捷,实时控制,风险分散等优势,完全适应信息社会的发展趋势,具有广阔的应用前景。然而在分布式网络系统中,电子数据和信息能够被快速而广泛
随着互联网的发展,企业的实际应用中可能会遇到数据库分布在不同地点的情况,而且这些数据库存在着异构性,这样开发实际应用需要对这些分布式的异构数据进行有效集成。同时由
近年来,伴随盲源分离问题产生的独立分量分析(Independent Component Analysis,简称为ICA)理论已逐渐成为统计信号处理中的一个重要研究方向,并正在迅速成为多维数据分析的一
与传统的周期性汇报或基于查询的无线传感器网络不同,事件驱动型无线传感器网络只有在监测范围内的事件发生时才向Sink节点发送事件报警消息,无事件发生时只发送一些网络健康状