论文部分内容阅读
起源数据是一种描述数据之间派生线索的元数据,在评估数据质量、可靠性方面具有重要意义。当前分布式的网络环境下,数据可分为原始数据及由原始数据派生后的数据,随着这些派生数字对象的扩展和共享,就会出现这样的问题:“这个对象是从哪里来的?”、“谁使用这个对象?”、“它生成的目的是什么?”,这些问题统称为数据起源问题。如何有效地组织、管理起源数据是一个值得研究的问题。尽管国际起源工作组发布了数据起源标准倡议及相关的起源应用实践,形成了完善的起源规范,但目前我国对起源数据的应用研究仍处于探索阶段。科技期刊中包含着特定领域的研究背景、实验数据及方法、研究问题。但是由于缺乏评价数据质量的有效手段,读者很难分辨科技期刊内容的质量层次,难以在已有文献的基础上进行数据复用、科研发现。此外,由于缺乏知识线索,科技期刊中单篇文献之间容易形成数据孤岛,不利于知识融合。科技期刊的起源数据是指科技期刊发展的历史线索数据,包括创建、发布、利用过程中生成的元数据及元数据间关系。起源数据在科技期刊中具有重要的作用,如起源数据可以帮助评判科技期刊的质量,实现科研过程、研究人员、数据及知识的有效融合。本文以科技期刊为例,基于数据生命周期模型,对科技期刊起源数据的语义管理问题进行了研究,研究主要围绕以下几方面展开:(1)分析了起源数据的基础理论,从起源描述、起源管理及科技期刊的起源数据三个角度全面分析了起源数据的理论问题,为起源数据的组织、管理及利用提供了理论基础。(2)界定了数据生命周期相关的概念并分析了不同的生命周期模型,通过对各模型共性的总结,形成了科技期刊起源数据的生命周期模型。(3)在科技期刊起源数据生命周期模型的基础上构建了科技期刊起源数据的语义管理框架,包括起源采集、起源描述、起源存储、起源发布、起源查询及起源利用。(4)设计了科技期刊起源数据的实验,以《晋图学刊》30篇论文作为实验对象,通过Protégé工具创建了研究论文本体,基于研究论文创建、审阅等阶段对选取的实验对象的起源数据进行了分析,进而从实际应用角度描述了起源数据在科技期刊中的具体应用步骤。通过分析科技期刊起源数据的语义管理框架,从全局角度把握了科技期刊起源数据的管理问题,同时在微观层面建立了研究论文中知识单元之间的语义关联,为科技期刊的语义出版提供了参考。