论文部分内容阅读
科学数据资源是科研工作的基础。随着科技的发展,数据资源存储规模日益扩大,但科学数据获取的低效率现象却日益凸显。造成这种现象的直接原因是没有高效的检索工具,究其根本是对用户判定科学数据相关性的原理和机制理解不足,特别是更为基础的科学数据相关性判断线索、标准等概念的理解及线索与标准之间关系研究薄弱。本文以科学数据为目标信息类型,开展科学数据用户相关性线索、标准及其二者之间关系实证研究。旨在加深对科学数据用户相关性判断机制的理解,探索人脑对数据线索和标准的信息加工过程,以便于计算机模拟实现,为开发智能搜索引擎提供算法和理论基础。本研究综合采用文献调研、事前事后访谈、出声思考,扎根理论和问卷调查的方法开展研究。主要研究内容为:(1)科学数据用户相关性线索研究。通过对被试相关性判断行为的观察和解释,探索用户长时记忆中的科学数据特征与相关性判断之间的关系,建立线索集合。(2)科学数据用户相关性标准研究。通过比较研究探究不同目标信息类型差异与相关性标准差异的关系,进一步理解并修正科学数据相关性标准的内涵与分类,建立科学数据相关性标准集合。(3)科学数据用户相关性线索与标准之间关系。在识别线索集与标准集的基础上,对被试相关性判断过程中的刺激-反应行为进行观察研究,关注被试对自己思维过程的解释,在数据统计分析的基础上建立科学数据用户相关性线索与标准之间关系。论文的主要研究成果为:(1)科学数据用户主要根据5类线索要素进行相关性判断:内容线索、质量线索、数据获取线索、外部评价线索和专业线索。当用户专业领域发生改变时,专业线索变化较大。(2)用户相关性判断标准要素12个,可归为2类:数据本体性和数据可用性。数据本体性是用户对数据物理实体的评价标准,包括主题性、可获得性、规范性、质量、权威性、时效性和新颖性。数据可用性是用户评价数据是否能够使用的标准,包括专业需求、可理解性、可用性、便利性和全面性。用户进行相关性判断时,本体性和可用性同时发挥作用,但如果不能获取足够信息或想进行快速查找,只对数据本体性进行判断也能满足需求。单独进行数据可用性评价无法得到数据是否相关的判定结果。(3)线索与标准之间关系可以分为3类:一重刺激多重反应、多重刺激一重反应和多重刺激多重反应。回归分析发现线索与标准存在正向相关关系,但现有线索对标准回归系数较低。数据相关性判断中,用户需要对多个线索综合评估。现有的线索体系基本能够满足用户的检索需求,但距离达到用户精准化、个性化要求还有一定的差距。数据线索的优化设计,专业线索的合理使用,有利于提高数据检索效率。论文的创新点体现在:(1)论文将相关性判据概念切分为相关性线索和标准两个概念,并用信息加工理论中刺激-反应关系对线索与标准间关系进行解释,加深人们对科学数据用户相关性判定机制的理解。(2)提出了影响科学数据用户相关性判断的线索与标准要素集合,并建立了线索与标准之间关系。本研究为科学数据检索系统的分析、设计以及系统性能的优化提升提供用户了层面的理论依据。