论文部分内容阅读
Web2.0时代下,人与人之间通过社交网络进行交互连接,以社交网络的网络结构为单位传播信息。社交网络的网络结构是指网络中成员的构成及其相互作用、相互影响的状态,以及由这种状态形成的相对稳定的联系模式。随着社交网络的应用逐渐广泛与流行,网络中成员间关系的复杂性呈指数增长。其关系复杂性的增加,一方面加剧了网络数据的挖掘难度,另一方面大幅提高了社交网络中复杂关系的研究价值。本文基于图数据库存储模式,深入分析社交网络的网络结构,以网络中的成员为节点,成员之间不同类型的连接为指向关系边,构造基于正则表达式的匹配模型,给出相应的算法并成功应用于人口研究领域,实现高效新型的家庭分类的统计查询。在理论研究的基础上为人口大数据的研究开创了新的思路。本文主要完成了以下几个方面的工作:1)基于正则表达式构造匹配模型。在分析图数据库中存储的Essembly社交网络数据基础上,结合正则表达式的匹配描述,给出数据图和模式图的定义。进而从节点间的结构信息与节点属性以及节点间指向关系边的语义信息出发,构造概念匹配模型。并以真实家庭结构的人口数据建立对应的应用模型。2)提出基于正则表达式的图模式匹配算法。基于强模拟算法思想,采用正则表达式匹配引擎构造的匹配模型,应用近似最优解代替最优解的近似图匹配方法,在大规模社交网络数据图中,提出基于正则表达式的图模式匹配算法,对社交网络的网络结构进行查询。3)使用不同数据集验证算法的可行性。文章选用三个不同数据集,从节点属性、标签以及边类别等方面比较实验数据。从准确率和效率两个方面,对提出的基于正则表达式的图模式匹配算法的可行性,进行实验验证。其中,效率方面,在相同规模查询模式图中,将算法基于三个数据集的查询时间进行对比;准确率方面,选取市级人口数据,以夫妇核心家庭为例进行查询,统计家庭户内人口比例以及家庭户比例,并将算法查询结果与人口研究领域中入户统计结果进行对比。4)将算法应用于人口领域,进行家庭分类查询。基于H省全员人口数据库,发现隐含人口亲属关系,构建亲属关系网络。基于亲属关系网络,以核心家庭为例,分析发现家庭结构中的人口数与关系边数、家庭模式数均具有一定数量关系,同类别的家庭结构存在特定的家庭模式。使用本文提出的算法,以核心家庭、一代核心家庭、二代核心家庭为例,进行家庭分类查询。查询结果显示,家庭结构逐渐趋于小型化,核心家庭已成为家庭中的主力军。