论文部分内容阅读
亲属关系网络描述了人与人之间的血缘、婚姻关系,随着数据规模的提升以及人与人之间关系复杂性的提高,如何在亲属关系网络中匹配特定模式的亲属关系结构成为研究难点之一。关系数据库在支持复杂关系查询上已难以满足要求,相比之下图数据库针对大量结构复杂数据的存储和查询上具有明显优势。在亲属关系网络的查询中,以家庭成员组成的结构搜索是典型的图模式匹配问题。由于子图同构方法匹配描述缺少针对模式图的限制语义,在亲属关系网络中,无法依据个性化的需求匹配特定模式的图结构。本文以图数据模型对真实亲属关系网络建模,在存储方法和查询效率上分别与关系模型进行对比。针对亲属关系结构查询问题,提出限制图模式匹配方法,在查询模式图中加入对于节点和边的限制语义,丰富模式图语义描述。将限制图模式匹配方法应用到亲属关系网络中,依据人口学中家庭结构的分类标准对亲属关系家庭结构进行匹配,并对匹配结果进行分析和可视化展示。本文具体研究内容主要包含以下几方面:(1)以图模式存储亲属关系网络。亲属关系网络结构复杂,人与人之间的复杂亲属关系查询对数据底层组织要求较高。本文以H省真实亲属关系网络数据为基础,结合亲属关系网络数据的语义和数据规模,以属性图(Property graph)数据结构描述亲属关系网络。分析亲属关系网络的关系模型建模方法,以图模型针对亲属网络数据建模并实现关系模型到图模型的数据存储转换。实验对比两种存储模式中复杂关系的查询方法,随着查询深度的增加,相对关系模型下表之间连接的复杂性,图模型下基于图模式的查询方式更简洁高效。(2)提出了限制图模式匹配方法。在亲属关系网络中,以家庭成员组成结构为条件的搜索是典型的图模式匹配问题。在亲属关系网络的特定亲属关系结构查找中,查询模式图的语义表述尤为重要。本文利用子图同构方法对亲属关系网络进行查询,发现查询模式图在语义表述上缺少限制语义描述,提出限制图模式匹配定义和匹配规则描述,为模式图增加节点和边的数目、类型限制语义,并对限制模式匹配规则进行了具体阐述,丰富查询图的语义信息以实现特殊结构匹配,并通过实验验证了限制图模式匹配方法的有效性和查询结果的正确性。(3)实验对比关系数据库与图数据库查询性能。以H省亲属关系网络为实验数据,分别实现关系模式的存储和图模式存储。在两种存储模式下,针对相同规模亲属关系网络数据,以相同查询目标进行查询方法的比对以及查询效率的评估。实验结果表明,以图模式存储的数据查询效率优于关系数据库。(4)将限制图模式匹配应用于亲属关系网络的家庭结构查询。为了实现家庭结构的模式匹配,扩展亲属关系网络,添加家庭户节点以及人与户之间的关系边,利用人口学中家庭分类的标准,分别对核心家庭、直系家庭、单亲家庭构建相应的模式图,根据限制模式图匹配规则,在亲属关系网络匹配中进行查询,并对结果的准确性进行评估。