论文部分内容阅读
本研究的目的:通过建立一套对数据模型的描述规则以及工作机制,来实现对数据资源进行统一、标准数据模式描述,从而实现工作人员和用户对各种数据资源在内容、结构、关系等方面进行无歧义的理解,最终保证孤立存在的原始数据资源在整个共享体系中得以进行交换和增殖利用。通过整个资料查阅和方法学习的过程,进行对于未来建立一个领域科学数据共享统一数据模型架构的一些初步探索。
研究方法首先参考学习国际上成功和通用的医药卫生数据模型范例,理解数据模式研究内容,并在此过程中学习数据建模、实体-关系模型、UML等相关知识。
然后,以两份设计文本的内容与步骤为线索,按照共享数据资源体系的层次对原始数据资源进行数据模式需求的描述,再借鉴UML静态类图的方法进行数据集的数据模式规范化描述。
在共享数据模式需求的描述中,需要按照原始数据资源在共享资源体系中计划的定位进行描述。具体层次包括原始数据资源准备纳入的科学数据中心、主体数据库,准备制作的数据集,以及数据集包含的数据库、数据表、数据文件等等内容。
对数据集进行数据模式的描述规则采用实体-关系的逻辑描述方法,选择国际通用的UML静态类图来进行数据内容与关系的描述与表示。
对数据集的标准化模型描述首先要描述其整体数据模式框架,说明数据内容整体性的内容、构成、内部结构关系,采用UML类图的方式表示;然后,分别针对每一个实体进行指定内容的描述,包括实体中所包含的属性信息;最后再按照规范的描述内容对该实体的每一个属性进行描述。
最后形成关于某个共享数据资源的数据模式需求收集文档和数据集(由原始数据资源生产得到)的数据模式标准文档。
本课题在研究过程完成之后,得到了以下结果:
◆建立针对医药卫生领域数据共享的数据模式描述规则。
借助UML静态类图对于实体、属性、关系的表述方法、遵循行业规范和通用标准建立一套对由数据资源生产得到的数据集进行关于内容、关系、结构的描述规则。为各种异构数据资源进入共享体系提供了标准化保证,也保障了科学数据资源的无歧义的理解与交流。
◆制订了进行数据模式描述的规范化工作机制。
通过规范文档的规定内容进行编写,建立了对数据模式进行标准化描述的过程与步骤,同时,各个步骤中对于数据集、实体、属性等的规定性描述内容,也为数据模式的描述工作拟订了具体内容方面的规范化要求。
本课题的研究结论如下:用统一,规范化的方法对各种数据资源进行描述是实现医药卫生科学数据共享的重要条件之一;对于物理层面差异很大的数据资源,必须要建立一套规则和工作机制在其转化为数据集产品的过程中进行数据模式的规范化描述;数据模式描述规则以及对领域统一数据模式标准的研究和制定,必须要了解成熟的模型标准范例,遵循行业标准,采用具有通用性的技术方法。