论文部分内容阅读
近年来,我国农业科学研究工作进展迅速,产生了大量宝贵的农业科学数据,这些科学数据涉及到农业科学的各个领域,科研人员及农业科研工作对其有着广泛的需求。然而由于农业科学数据大多不是网络数据,不能通过互联网“自然形成”来获得,而是在科学研究工作中“创造”,来之不易,许多科学数据需要专业人员和仪器设备专门观测、实验、挖掘,投入大,耗时长,给农业科研人员获取农业科学数据造成障碍,影响农业科学数据的有效利用。农业科学数据资源数量的急剧增长为科研人员获取所需的信息和知识带来更多机遇的同时也带来了更大的挑战。由于农业科学数据来源及表现形式多样化,因此农业科学数据很难有一个规范的存储格式来保证农业科学数据的完整性。农业科学数据监管,不是单纯对农业科学数据进行存储,而是在农业科学数据供学术、科学及教育所用的生命周期内对其进行持续监管的活动,通过评价、筛选、重现及组织数据以供当前农业科研活动获取,并能用于未来再发现及再利用,从而为农业领域决策问题求解构造有效的科学数据资源。它为解决农业科学数据资源领域的数据监管服务问题提供了新思路、新方法和新途径。本文以实现农业科学数据重复利用和数据增值为立足点,以满足科学研究的高质量科学数据监管服务为目标,综合运用情报科学、农业科学、数据科学、计算机科学等多学科的理论方法,拟从科学数据组织的角度架构农业科学数据监管框架模型,构建数据获取过程模型,提出对多源的、分散重复、被淹没的农业科学数据资源进行集中监管的理论框架与解决方案。尝试在大数据环境下分别从农业科学数据监管影响因素维度、生命周期维度、服务维度三个不同维度探索农业科学数据监管的实现方法。具体研究内容包括:(1)通过对农业科学数据监管等相关概念的阐述,进一步明晰了本文研究对象与研究内容的范畴。同时对本研究具有重要指导意义和参考价值的数字农业理论、生命周期理论、数据科学理论、本体理论、机器学习理论和知识发现理论进行了理论溯源。其中,数字农业理论、生命周期理论与数据科学理论为本文农业科学数据监管模型的构建提供了重要的理论支撑,本体是实现农业科学数据监管中数据组织的有力工具,而机器学习和知识发现理论则提供了解决农业科学数据分类与聚合等问题的技术方案。(2)确定了对农业科学数据资源进行监管的目标和原则,从用户(科研人员)科学数据需求和数据科学家(数据监管执行者)两个方面分析了农业科学数据监管需求,明确了农业科学数据监管的流程框架构建依据。然后对农业科学数据监管过程中涉及的构成要素、功能要素及要素之间的关系进行了分析,并依此提出了农业科学数据监管逻辑框架。(3)影响因素维度上,采用质性研究方法,运用扎根理论,分析了农业科学数据监管的影响因素,通过深度访谈的模式,设计了访谈提纲,运用Nvivo软件对每次访谈的信息做记录、组织与分析,通过编码的形式(开放式编码、主轴编码和选择性编码)来分析数据,形成农业科学数据监管影响因素模型,对模型进行了详细的阐释。(4)生命周期维度上,从农业科学数据监管的生命周期角度出发,首先,通过对农业科学数据采集分析,以机器学习中的深度学习为例,指出农业科学数据采集的复杂性;其次,分析了农业科学数据的组织,以本体方法组织农业科学数据,运用了本体中的Protégé软件,同时,通过农业科学数据元数据模型,实现农业科学数据的有效组织,最后,通过农业科学数据共享平台,实现农业科学数据监管的最终目标,达到农业科学数据最大限度地利用、复用。(5)服务维度上,论述了农业科学数据监管服务模型的构建,基于利益相关者理论,通过对农业科学数据监管利益相关者进行统计分析,找出政府、用户和数据服务人员三个核心利益相关者,基于这三个维度找出政府政策、用户需求和服务模式这三个主要模型构建的核心概念,同时,对各个维度进行了深入的剖析,通过这三个维度之间的关系分析,构建了以用户为导向的农业科学数据协同监管服务模型,期望通过该模型的建立指导农业科学数据监管的具体服务实践。(6)按照农业科学数据监管多维度框架的结构与功能划分,提出了不同维度农业科学数据监管实现所需要的方法,这些方法的效果如何,还需要通过应用进行验证。为此,本文以“天空地一体化农业监测系统”的数据资源为例,分析了数据生命周期内各阶段(数据采集、数据组织、数据存储、数据共享)的应用情况,对“天空地一体化数字农业监测系统”的结构进行了分析,提出了提升农业科学数据监管质量的策略。