论文部分内容阅读
我国作为人口大国,人口研究是学术界和政府关注的热点之一。人与人之间通过婚姻关系和生育关系构成了一个个家庭。家庭构成了社会的基本组成单位。根据家庭内部关系的不同和家庭成员角色的不同,家庭可分为不同的类型。对家庭类型的研究是人口学研究的重要组成部分。随着人口大数据时代到来,大数据分析技术对家庭的深入研究和分析提供很好的技术支持。本文以H省全员人口数据为基础数据,对数据进行预处理,提高数据质量。在此基础上抽取合适属性,重新组织数据,将其导入图数据库中,构建带有户信息的亲属关系网络,形象地体现人与人之间的夫妇关系和血缘关系、家庭户与人的人户关系。基于亲属关系网络和人口学中对家庭类型的定义,结合图论知识,对本课题组前期提出的家庭类型表示形式进行扩展,提出家庭类型结构拓扑图,扩大所表示的家庭类型。将家庭类型查询统计问题转化为图模式匹配的问题。重新定义数据图和模式图,提出家庭结构匹配的定义,并以家庭类型结构拓扑图为模式图,提出家庭结构匹配算法,进行家庭类型查询统计。这些研究为研究家庭分类、进行家庭类型查询统计提供了新思路。本文主要研究工作包括以下几个方面:(1)提出家庭类型结构拓扑图。对本课题组提出的家庭类型表示进行分析和研究,提出家庭类型结构拓扑图,在能够表示夫妇核心家庭和标准核心家庭的基础上,进而表示扩大核心家庭,囊括整类核心家庭。家庭类型结构拓扑图不仅能够表示这三类核心家庭的一般形式,同时可以表示它们的特殊形式。结合家庭类型结构拓扑图,对特定核心家庭类型进行分析,总结家庭类型的结构特征和性质。(2)基于家庭类型结构拓扑图,提出家庭类型结构匹配算法。分析家庭类型查询统计的本质,结合图模式匹配问题,重新定义数据图和模式图,提出家庭结构匹配问题的定义。并分别以省级、市级亲属关系网络作为数据图,家庭类型结构拓扑图作为模式图,结合图数据库,提出家庭类型结构匹配算法,对特定家庭类型进行查询统计。(3)构建人口家庭类型查询系统。基于家庭类型结构拓扑图和家庭类型结构匹配算法,结合Flask框架,以存储在图数据库中的亲属关系网络作为基础数据,构建人口家庭类型查询系统。以不同的行政区划和不同的家庭类型为条件,提供家庭类型查询统计的接口。为解决家庭研究领域中数据结构混乱和数据共享困难的问题,定义共享数据集的数据结构。设计并实现了共享数据集的构建方法,抽取共享数据集,为拓展人口研究奠定了数据基础。同时,结合可视化插件,实现查询结果的可视化。