基于语义网的中文个人名称规范记录聚簇研究

来源 :山西大学 | 被引量 : 0次 | 上传用户:wohaishixinyonghu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网促进大数据的迅速发展,国内各级政府机构、科研院所、科研管理机构、大型图书馆、商业机构各自建立巨大的资源库,但是这些资源之间缺少沟通和关联成为一个个信息孤岛。图书馆领域为了适应全球范围内书目资源共享的需求,遵循一定的名称规范文档的构建原则,对其书目记录检索点名称进行汇集验证的规范控制。中文名称规范控制是国际名称规范控制的重要组成部分,通过对个人名称 、家族名称、团体名称等建立规范记录形成规范文档,可以确保标目在检索款目的一致性和稳定性。但是中文名称规范起步较晚,在语义表示和关联方面还落后于国外发展,迫切需要解决规范数据在语义化和关联化中的问题,才能更好地与国际同行建立规范数据的关联知识库。本文针对中文名称规范检索系统结果集中记录数量大而杂乱、冗余的问题,研究将各中文规范档内部和不同规范档的表示同一个人的多条记录进行聚簇的算法,旨在实现将同一个人的多条规范记录集中表示,既方便用户快速准确地检索到人名相关信息,又为未来国内中文个人名称规范档与VIAF的关联实现奠定基础。  论文在综述分析国内外对规范数据关联和语义网技术基本理论研究的基础上,第三章分析中文名称规范联合库检索系统CNASS的检索结果特征和记录的详细内容特点,提出对结果集记录聚簇的思路:强调生卒年属性在匹配中的作用,对于大量记录生年卒年缺失的问题,尝试性提出从注释和参考数据源字段抽取与个人关联的作品题名序列属性,并根据名称、出生年和作品题名组合识别出描述同一实体的多条记录进行聚簇合并。  第四章采用FRBR-LRM框架,用实体-关系-属性方法的RDF三元组更准确表示个人与作品的关系,并根据规范记录内嵌的外部LC记录号重定向到VIAF的聚簇的信息来扩展作品关系信息,在作品关系呈现多倍增加的基础上,构建基于作品关系扩展的中文个人名称规范记录聚簇算法。使用逐步扩展匹配的作品关系集合与其它中文规范记录匹配,提高不同语言格式的记录的作品题名匹配上的可能性,提高聚簇的性能。上述三、四章的聚簇方法没能有效利用隐藏在标目括号中的简短附加信息,如性别、民族、出生地、学科、行业的混合的社会属性以及隐含在注释文本中除作品题名外的其它社会信息。为了更准确的构建社会属性语义分析,本文第五章参考网络知识库Wikidata的类关系,分析个人的重要社会属性-职业属性值隐含的本体关系。从Wikidata提取国籍为中国的个人条目,抽取生卒年、职业等属性组成语料库。利用Wikidata分类的上下位关系推导有关中国人的职业子集的层次关系。分析语料库中职业的上位关系矩阵的特征,并利用上位关系的可传递性进行推导计算,同时采用了准马尔可夫过程的方法对所有职业的上位分类进行研究,结果表明Wikidata职业分类体系不同于传统的严格树型结构,是复杂的网络层次结构,有多个上位结点的结点数量很多,分类体系从多视角对职业类属层次进行划分,而且上层结点即使已属于宽泛概念,由于实例个人处在职业不同的专业化阶段,依然有个人实例进行关联。  本文最后利用Wikidata职业本体的多视角分类关系,分析社会属性中关于职业的分面主题,包括行业、职称等级、学科、学位等级、荣誉头衔等;再加上社会属性的其他方面主题,如性别、民族、出生地、工作机构、作品题名、作品主题等,构造个人的分面主题框架。利用《汉语分类主题词表》、《中华人民共和国学科分类与代码简表》和《国民经济行业分类》的主题词和层次关系,构建基于主题模型的个人记录的语义化转换,最大化地丰富个人记录的属性信息,更好地实现中文个人名称规范记录的聚簇,为下一步与 VIAF 的正式关联提供更为丰富规范的语义化信息。  本论文研究进一步丰富了语义网环境下的名称规范记录的聚簇算法,为个人名称识别提供了一些解决方案,在一定程度上提高了国内名称规范档的建设质量,促进了国内名称规范档与VIAF的关联.。并通过与外部知名网络知识库的关联,提高图书馆信息资源在网络时代的利用率,打通各资源机构的信息孤岛,为国内的政府决策支持、科研管理、知识管理提供信息基础设施支持。
其他文献
导读:幼儿挫折教育其次要破除幼儿的依赖性。作为教育者应该给孩子面对现实的机会,让他们意识到成功是建立在自己努力的基础上的。
期刊
学生天真好奇,正处于一种心欲求而尚未得的状态,为满足学生的求知欲,我们提出了“以大问题”引导学生自主学习的策略。“以大问题”引导学生自主学习是根据特定学生的心理特点、
期刊
作为每年春秋大拍内地最早举槌的拍卖公司,中国嘉德历来被视为业界风向标。在经过预展3天、拍卖5天连续8天的奋战后,中国嘉德2016年秋拍以总成交额22.93亿元圆满收槌,相较201
品质是指人的行为和作风所显示的思想、品性、认知等实质。随着社会的不断进步,对未来的人才素质提出了越来越高的要求:不仅要具有良好的思想品质、健康的体格、聪明的才智,更要
期刊
该文以组合投资均衡与非均衡理论为引导,着重讨论了代理证券组合的R-β截面关系,代理证券组合边界与市场证券组合有效边界的差距,以及代理证券相对有效度的衡量等问题.在此理
该文从各方面来论述当前经济条件下物流实现的具体形式——现代化物流中心的特点和运行模式,并给出了具体案例.该文从分析当前世界物流的特征和发展趋势出发,指出了现代化物
该文利用相关理论,采取理论分析和实证分析、定性分析与定量分析相结合的方法全面、深入地分析了目前中国上市公司治理结构中存在的种种缺陷及其成因,并在此基础上提出了以完
首先我努力地去注意自己的语音、语调、语气,力求让动作表情具有生动性和表现力,给孩子潜移默化的影响。其次,注意语言要求的渗透。
期刊
当今中国正处在大发展大变革大调整的时期,对人的思想观念、道德品质和综合素质提出了新的挑战和要求。初中学生处于身心发展和学习参与社会公共生活的重要阶段,处于思想品德和
期刊
该文以物流供应链为基础,研究在电子商务环境下的物流系统及其中国模式.该文首先分析了电子商务环境下物流的特点、电子商务与物流的关系等问题,提出了高效可靠的物流体系是