基于正则表达式的图模式匹配算法研究

来源 :河北师范大学 | 被引量 : 3次 | 上传用户:qq231582
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web2.0时代下,人与人之间通过社交网络进行交互连接,以社交网络的网络结构为单位传播信息。社交网络的网络结构是指网络中成员的构成及其相互作用、相互影响的状态,以及由这种状态形成的相对稳定的联系模式。随着社交网络的应用逐渐广泛与流行,网络中成员间关系的复杂性呈指数增长。其关系复杂性的增加,一方面加剧了网络数据的挖掘难度,另一方面大幅提高了社交网络中复杂关系的研究价值。本文基于图数据库存储模式,深入分析社交网络的网络结构,以网络中的成员为节点,成员之间不同类型的连接为指向关系边,构造基于正则表达式的匹配模型,给出相应的算法并成功应用于人口研究领域,实现高效新型的家庭分类的统计查询。在理论研究的基础上为人口大数据的研究开创了新的思路。本文主要完成了以下几个方面的工作:1)基于正则表达式构造匹配模型。在分析图数据库中存储的Essembly社交网络数据基础上,结合正则表达式的匹配描述,给出数据图和模式图的定义。进而从节点间的结构信息与节点属性以及节点间指向关系边的语义信息出发,构造概念匹配模型。并以真实家庭结构的人口数据建立对应的应用模型。2)提出基于正则表达式的图模式匹配算法。基于强模拟算法思想,采用正则表达式匹配引擎构造的匹配模型,应用近似最优解代替最优解的近似图匹配方法,在大规模社交网络数据图中,提出基于正则表达式的图模式匹配算法,对社交网络的网络结构进行查询。3)使用不同数据集验证算法的可行性。文章选用三个不同数据集,从节点属性、标签以及边类别等方面比较实验数据。从准确率和效率两个方面,对提出的基于正则表达式的图模式匹配算法的可行性,进行实验验证。其中,效率方面,在相同规模查询模式图中,将算法基于三个数据集的查询时间进行对比;准确率方面,选取市级人口数据,以夫妇核心家庭为例进行查询,统计家庭户内人口比例以及家庭户比例,并将算法查询结果与人口研究领域中入户统计结果进行对比。4)将算法应用于人口领域,进行家庭分类查询。基于H省全员人口数据库,发现隐含人口亲属关系,构建亲属关系网络。基于亲属关系网络,以核心家庭为例,分析发现家庭结构中的人口数与关系边数、家庭模式数均具有一定数量关系,同类别的家庭结构存在特定的家庭模式。使用本文提出的算法,以核心家庭、一代核心家庭、二代核心家庭为例,进行家庭分类查询。查询结果显示,家庭结构逐渐趋于小型化,核心家庭已成为家庭中的主力军。
其他文献
随着水运行业的迅速发展,水上交通安全越发受到重视。船舶碰撞事故作为水上交通事故中发生最频繁、造成损失最严重的事故类型之一,其发生往往会造成较为严重的后果。识别船舶
目的:探讨胰腺神经内分泌肿瘤(pancreatic neuroendocrine tumours,pNETs)的临床诊断、外科治疗以及预后因素。方法:回顾性分析我院2006年3月至2015年7月收治的30例pNETs患者
电子邮件因为其方便、快捷、低成本的特点成为了人们生活中和工作中不可或缺的信息传递媒介,也因此导致垃圾邮件泛滥成灾。特别是在高校,这种问题尤其严重。杜绝垃圾邮件的传
由同济大学联合体汇总的上海市中心城快速道路交通改善方案的结论,提出了未来外环线内(不包括外环)高架快速路的基本形态为"二环十射"和"十"字高架,总里程210公里(其中包括已
互联网发展迅猛,网络的便捷性使得网络语言以前所未有的速度发展和更新,信息爆炸时代早已来临,网络文本作为信息传播的主要载体也得到了前所未有的发展,网络语言日新月异,但
建筑给排水设计是建筑设计的重要组成部分。近年来,随着时代的进步以及国民经济的发展,智慧建筑、绿色建筑、低碳环保建筑等新概念层出不穷,对建筑给排水设计的要求越来越高,建筑给排水系统变得愈加复杂,而管道系统的增加必然会导致管线的繁杂,与其他专业的管线或者构件发生空间碰撞或者自身布置不合理的可能性也会增加,这些问题依赖传统的二维辅助设计(CAD)软件很难得到妥善的解决。随着建筑信息模型(BIM)技术的诞