论文部分内容阅读
随着经济社会的发展,领域的分工日益明细化,学者专家在我们生活的方方面面越来越起到引导的作用。取得专家的各种信息,如研究领域等信息,进行加工整理,然后在此基础上,构建专家知识库,也引起了人们越来越多的重视。无论对于个人还是研究机构来讲,专家知识库都能够在某种程度上给需要的人和研究机构提供较大的便利。本文主要工作是利用开源DSpace系统设计并实现某单位机构知识库,并提出一个基于机构知识库数据的数据中心转换算法,具体工作包括:(1)本文对机构知识库的管理技术方法进行了调查研究。首先,本文重点对机构知识库软件DSpace系统进行了详细介绍,分析DSpace系统的三层体系结构以及各层的功能,并从DSpace系统的数据模型、元数据等方面对DSpace系统的功能特点进行了详细讨论,由此总结得出了DSpace系统在实际运用中的优势和不足。其次,本文对管理机构知识库所涉及到的信息抽取技术进行了详细介绍,分析了信息抽取技术的分类,得出了信息抽取技术在机构知识库系统中的应用前景。最后,本文对同名排歧算法进行了详细介绍,主要分析了有监督的同名排歧算法和无监督的同名排歧算法。(2)本文提出了基于DSpace系统的机构知识库平台模型设计,从而形成面向科研知识体系的机构知识库系统。在机构知识库的建设过程中,首先,本文提出了检索模型架构,框架完成的功能包括词性标注与词形规范化、停用词处理、索引建立、词义消歧与扩展、词语过滤和结果检索。其次,本文提出了数据批量导入算法,解决了将大规模数据自动化批量导入机构知识库进行海量数据格式融合的问题。最后,本文对机构知识库中的专家知识进行了挖掘、评估和展示。(3)本文提出了基于机构知识库系统数据的,由人名处理算法、人名归类算法和同名排歧算法三种不同的算法组成的数据中心转换算法,解决了机构知识库的数据需要从以文献为中心进行存储管理的简单数据,向以作者和专家为中心进行存储管理的数据的转换的问题。本文对数据中心转换算法中的同名排歧算法进行了设计优化,以解决同名排歧效果不佳的问题。主要提出了三个算法:首先,提出了基于作者关系进行同名排歧的转换算法(Conversion Algorithm Based on the Relation of Authors,CABRA)来解决同名排歧问题。其次,提出了对CABRA的改进算法,基于图结构的转换算法(Transformation Based on Graph Structure Algorithm,TBGSA)一定程度上解决了CABRA算法在不同规模数据集上,数据规模不同影响正确率的问题。最后,本文在TBGSA算法基础上进行进一步改进,提出基于多算子框架的转换算法(Transformation based on multi operator framework algorithm,TMOFA),从而达到了文章多属性因子影响力的融合的目的。