论文部分内容阅读
亲属关系网络是以人员个体为节点,个体之间的基本亲属关系为连接边构建的。亲属关系网络是复杂网络的一种特殊类型。与其它复杂网络的构成关系不同,亲属关系本身包含多种基本关系,例如,父亲、母亲、儿子、女儿以及配偶关系。亲属关系的随机性较弱,特别是血缘关系,一旦确定不可更改。对亲属关系网络的统计特性分析不仅可以揭示网络本身的拓扑特征,还可以为人口管理领域提供理论支撑。同时,基于亲属关系网络的关系追溯算法是人口领域的一个新应用。文中提出的亲属关系追溯算法综合考虑了实际管理需求,既可以进行亲属关系的半径搜索,也可以定向追溯。亲属关系追溯算法使用基本亲属关系进行搜索,相比传统表连接的搜索方式更方便,灵活。本文以H省全员人口数据库中的海量人口数据为依托,扩展数据范围到复杂网络的层次,以市级亲属关系数据为例构建亲属关系网络。更进一步,为了方便家庭的管理,构建了扩展的家庭网络。针对这两种类型的网络,本文分别从统计特性和关系追溯两方面进行了研究。主要包含如下几方面工作:(1)构建市级亲属关系网络,并分析网络的结构特性。数据库中不同的人口数据存储在不同的关系表中。根据某市的管理地编码,抽取出市级范围内的亲属关系数据。对数据进行清洗和整理,最终形成构建亲属关系网络所需数据。对亲属关系网络的结构特征进行了分析,包括数据结构特点和拓扑结构特征。对亲属关系网络的数据结构分析发现,人员之间的亲属关系随机性弱,人员个体或个体之间的亲属关系变化,对网络的连通性影响较弱。对亲属关系网络的拓扑特征分析发现,亲属关系网络的度分布服从偏态分布,大部分度分布在平均值附近。亲属关系网络满足小世界效应,它具有较大的聚类系数和相对较小的平均路径长度。根据网络的平均度可知该地区的平均家庭规模为4。(2)基于亲属关系网络提出了两种关系追溯算法。在人口管理系统中是以单人单户的形式进行管理的,全部人口数据存储在数据库中的关系表里。在执行亲属关系搜索时需要进行表连接操作,特别是在搜索亲属关系较复杂的情况下,传统搜索方式降低了执行效率。本文构建了一种新的关系模式,抽取出亲属关系,转换成有利于关系追溯的亲属关系网络数据。基于亲属关系网络提出了两种关系追溯算法,包括半径搜索算法和定向搜索算法。半径搜索算法可用于亲属关系横向搜索,例如犯罪追逃;定向搜索算法可用于亲属关系纵向追溯,例如家谱追溯。本文提出的两种亲属关系追溯算法相比传统的表连接搜索方式更方便,灵活。(3)构建扩展的家庭网络,并分析家庭网络的统计特性。在亲属关系网络的基础上,为每一个人员标记家庭户编码,构建了扩展的家庭网络。网络节点依然为人员个体,连接边表示某种亲属关系。将网络中具有相同家庭户编码的人员汇聚为同一节点,形成家庭网络,其中,网络节点是单个家庭。相比亲属关系网络,家庭网络不仅减少了人员个体,也减少了个体之间的亲属关系。因此,家庭网络的聚类系数变小。通过计算家庭户均人数得出该地区的平均家庭规模为4,与亲属关系网络平均度评估的结果一致。(4)提出了两种基于家庭的亲属关系追溯算法。基于家庭的亲属关系追溯算法的核心思想是半径搜索算法。但是与半径搜索算法的方式不同,采用家庭节点进行亲属关系追溯。基于家庭的亲属关系追溯算法包括两种,一种是全局关系搜索算法,是在家庭网络上实现半径搜索;另一种算法对应称为局部关系搜索算法,它是在扩展的家庭网络上实现半径搜索,该算法兼具了亲属关系网络与家庭网络半径搜索算法的优势,使搜索结果更加详细。