大规模图数据库的相似性搜索算法研究

来源 :西安电子科技大学 | 被引量 : 2次 | 上传用户:wcd_wang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图作为强大的数据模型,不仅能够描述目标物体的属性,还能描述各个组成之间的结构关系,已经被成功地应用到许多领域中,包含生物信息学,计算机视觉,软件工程和社交网络等。另外一方面,随着信息技术的快速发展,可获得的图数据急剧增加,有效的图管理和查询变得越来越重要。相比于图数据库中的精确搜索,图相似性搜索可以提供鲁棒的解决方案,也就是说它支持容错和允许搜索不精确定义的模式。鉴于图编辑距离(Graph edit distance,GED)的优良特性:适用于任意类型的图和能够精确地捕捉图之间的结构和标签差异,本文考虑了基于GED度量的图相似性搜索问题。具体来讲,给定查询图Q和阈值τ,在图数据库D中找到所有与Q编辑距离小于或等于τ的图。由于GED计算是NP-hard问题,目前已有的方法都基于“过滤–验证”框架。在过滤阶段,设计不同的GED下界过滤那些肯定不满足阈值条件的图;这个阶段通过特定的索引结构高效地完成。在验证阶段利用精确的GED计算方法验证剩余的图。针对已有索引方法的不足(松弛的GED下界,过大的索引空间和有限的可扩展性)和GED计算方法的缺点(巨大的搜索空间,过量的内存消耗和许多昂贵的回溯),本文提出了新的索引结构和GED计算方法,以提高图相似性搜索的性能。具体工作概括为下面四个部分:第一部分研究了解决图相似性搜索的外存索引结构。针对现有索引方法在处理大规模图数据库时具有有限的可扩展性,本文提出了一种基于q-gram表示的外存索引框架,它能够处理超大规模的图数据库。具体而言,将q-gram计数过滤器转变为稀疏矩阵向量乘(Sparse matrix-vector multiplication,SpMV)问题,并提出了基于混合布局的q-gram矩阵索引,以实现有效的查询处理。同时,将每个图转变为vertex-edge 2D空间的点,并将全局计数过滤器转变为2D查询矩形来提高查询性能;这允许只在缩小的查询区域中执行搜索,从而显著地减少查询I/O次数。在真实数据集上的实验结果表明所提外存索引能够处理包含2500万个化合物的超大数据集,并比基于q-gram的外存倒排索引需要更少的查询I/O次数。第二部分研究了解决图相似性搜索的简明索引结构。鉴于现有内存索引方法的过滤能力有限和索引空间过大的问题,本文提出了一种简明的q-gram树索引,它结合了简明数据结构和混合编码,以最小的内存空间使用来提高查询性能。具体来说,所提简明q-gram树的索引大小只有主流索引大小的5%–15%,但同时在测试数据集上实现了几倍的查询加速。此外,还提出了两个有效的GED下界(即,q-gram计数下界和度序列下界)和一种下界提升技术,以获得尽可能小的候选集。在真实和模拟数据集上的实验结果表明,所提简明q-gram树在索引大小和查询性能方面都优于主流索引方法。据我们所知,该索引是第一个能够处理包含2500万个化合物的超大数据集的内存索引。第三部分研究了GED的高效计算方法。观察到已有GED计算方法具有若干缺点:巨大的搜索空间,过量的内存消耗和许多昂贵的回溯调用,本文呈现了一种新颖的基于顶点映射的GED计算方法。该方法能够识别无效和冗余映射,从而在缩小的搜索空间中计算GED。此外,采用了波束堆栈搜索(beam-stack search),并结合了两种专门设计的启发式方法来提高GED计算,实现了内存利用和回溯调用之间的均衡。在真实和模拟数据集上的实验结果表明,所提方法在稀疏和稠密图上都优于主流GED计算方法。此外,还扩展了该方法以解决图相似性搜索问题。实验结果表明,扩展后的方法比已有的图相似性搜索方法快几十倍。第四部分研究了GED的近似计算方法。考虑到GED计算的NP-hard困难性限制了其在很多领域中的应用,本文提出了一种任何时间算法(anytime algorithm)近似计算GED。该近似算法将运行时间作为参数从而输出一系列改进的GED次最优解(suboptimal solution),以满足不同的运行时间需求。具体而言,提出了一种基于邻居偏差的贪心匹配方法,它能够在二次运行时间内快速地得到GED的初始次最优解;然后,采用结合了更有效的启发式估计的树搜索方法来提高所获得GED次最优解。该启发式函数基于扩展的分支编辑距离,理论上能够产生比标签编辑距离更加紧确的GED下界。在大的和小的运行时间设置下,相比于主流的GED近似算法,所提任何时间算法都能实现最小的偏差。
其他文献
随着智能机器人和机器视觉技术的发展,仿人形机器人的研究逐渐成为了智能机器人研究领域的热点,同时,嵌入式系统的深入发展为仿人形机器人系统的设计提供了强大的硬件平台支撑。
当代青年生活方式的变革,70年代末开始萌动,80年代中期全面展开,90年代初已基本定型,形成了适应商品经济和市场机制基础的、不断深化的变革趋势。目前,青年生活模式出现了以
海豆芽曾被达尔文称为'活化石',外形易与一些软体动物混淆。本文对海豆芽特征、历史和现状的认识进行了综述,并以此为切入点反思了教学中知识更新的重要性。
<正>明清实学,是我国学术史上特定历史时期的产物,是含有特定历史内容的学术思想形态。它最初主要是针对宋明理学的日趋空疏衰败、尤其是阳明“心学”的禅化而提出,至明代后
会议
该文是对双足竞步机器人的控制系统电路进行设计,具体内容是以ATmega16单片机作为主控芯片完成舵机控制总体结构、复位电路、晶振电路、电源电路和通信电路的设计。
根据国家科技部国科发计[2013]405号文件精神,依托解放军理工大学和南京熊猫汉达科技有限公司组建的“国家短波通信工程技术研究中心”正式获批立项建设。国家短波通信工程技
品德课是一门活动型课程,活动是连接学校与社会、教师与学生的纽带和桥梁。那么,品德课上,如何创设“乐”“活”课堂,让学生动起来,快乐地接受道德熏陶呢?
期刊
中外教育家们不约而同的主张——应对人进行全面的教育,培养全面和谐健康发展的社会公民,其可以解读为:健全的凡人教育即成功的教育。总体来看,健全的凡人教育应该理解为全人
在当前的时代背景之下,电力营销工作已经发生了诸多的变化。最近几年,客户服务已经成为了影响电力营销的重要因素,其服务水平直接关系到企业能否在激烈市场竞争中长期处于有
一、高分子化学一般介绍高分子化学是一门新兴的科学。对一般人说来,比较生疏。但是高分子化合物,则触目皆是。从生命的基本物质—蛋白质一起,到我们日常衣食住行,所接触的