基于结构相关性的多模式图匹配技术研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:acdef2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,关联性数据规模巨大,增长迅速,通过数据关联性,从海量数据中抽取有价值信息是大数据计算的核心,由于图适合表示数据关联性,图可以对海量数据中提取有价值的信息起到很大作用,因此大规模图计算技术成为当前大数据学术研究和工业研究的热点。  作为实现图计算技术的基本方法,图匹配技术在许多相关的学术领域中被广泛研究,包括社会安全分析、网络攻击检测、生物分析、商品推荐等。然而,由于当前进入大数据时代,数据量和数据复杂程度的增加给图匹配技术也带来了新的挑战:(1)图模式匹配问题复杂且运算耗时,其时间复杂度随着图数据节点规模的增长呈指数性增长;(2)图模式匹配问题中的模式图往往以集合的方式出现,但已有的图模式匹配算法将要匹配的模式图看成独立的个体,单独进行匹配计算,造成整个模式图集的计算过程中存在大量对相同结构的重复计算,使得整体匹配过程存在冗余时间消耗。  当前,已有的图模式匹配算法主要从优化剪枝策略,对数据图建立索引等方面进行改进,对所有的模式图独立地在数据图上进行查找。然而这种把要匹配的模式图看成独立的个体,忽略了模式图集中结构相关性的方式,会造成大量的相同结构的重复计算,消耗过多冗余时间。为了利用模式图集中模式图之间的结构相关性,本文主要从三个方面开展基于结构相关性的多模式图匹配技术的研究,包括:基于多模式图索引的图匹配技术,多模式图的结构相关性挖掘技术,多模式图匹配算法库的设计与实现。本文的主要贡献总结如下:  (1)提出了一种基于结构相关性的多模式图索引,并提出了一种新的利用多模式图索引来进行精确图匹配的加速框架。该框架可以与现有的图模式匹配算法相结合,加速多模式图匹配的计算速度。多模式图索引记录了模式图之间最优的结构相关性,重新安排多模式图进行图匹配的计算顺序,避免相同结构的重复计算。通过在真实数据集和合成数据集上进行实验,本文证明了基于多模式图索引的图匹配技术的有效性和扩展性,在实验所用的真实与合成的数据集上,该技术与现有算法相比,可提升匹配平均速度2倍到一个数量级不等。  (2)提出多模式图的结构相关性挖掘技术。在多模式图索引的图匹配技术的基础上,为了优化该技术在部分模式图包含关系较少的数据集上的效果,多模式图的结构相关性挖掘技术通过挖掘模式图中的频繁子图,选择挖掘出的频繁子图中合适的一部分,加入到多模式图索引中,优化多模式图索引结构,从而提升多模式图匹配技术的计算性能。  (3)在上述关键技术的基础上,设计并实现了一个多模式图匹配算法库。多模式图匹配算法库提供了多模式图查询和单模式图查询的多种算法接口,提供了多种算法库可用的测试数据集,设计并实现了用户友好的算法库交互界面。
其他文献
随着移动互联网的发展,越来越多的人使用手机上网。手机APP成为网络服务的主要入口,APP的商业价值得到广告机构的重点关注。对广告主来说,APP下载次数是决定他们最后一次报价的
中文TTS(Text-to-Speech)系统就是把文本文字串或文件通过一定的软硬件转换成连续的语音流输出的系统.文本分析和语音合成是TTS系统两个基本步骤.前者从文本中提取各种韵律控
作者着重研究了时空数据库的几个关键技术问题.具体研究内容包括:时空数据模型、基于对象行为特征的时空拓扑模型、拓扑规则系统、时空方位处理、空间数据索引和分史存储以及
信息检索系统是互联网中最常见的应用之一,例如Web搜索引擎、在线文献检索系统等等。在这些系统中,倒排索引是最常见也最重要的数据结构。倒排索引文件通常比较大,需要耗费大量
学位
工作流系统已经成为人们的日常业务处理中越来越重要的技术,对一个组织来说业务过程的可靠性和一致性是很重要的。但是目前,大多工作流系统产品和原型系统都缺乏事务特性,这是工
近些年,针对流式大数据实时处理,并提供低延时高效率的实时交互式查询的研究已经成为大数据领域的热门研究方向。然而由于流式大数据的计算环境中,存储和计算资源有限,往往无法为
Internet现已成为社会重要的基础信息设施之一,当嵌入式设备配有网络通信接口,并得到相应的TCP/IP协议栈等软件的支持,便可以接入Internet.嵌入式技术和Internet技术的发展为
该文对基于模型的诊断的全部诊断过程:模型表示、冲突识别、候选产生等,均给出了改进的算法.首先,对于模型的表示,根据部件之间的拓扑结构分成等价的部件树,这样可以减少部件
针对电视测角仪在实际应用中所遇到的各种自然干扰和人为干扰,该文在分析各种干扰源对电视测角仪提取目标的影响的基础上,从光学系统和图像处理系统两个方面提出了相关解决措