基于用户行为的图书馆数字资源语义聚合研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:donnastinsbt
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数字图书馆越来越成为图书馆对外服务的重要窗口和学术资源整合的重要平台,对平台内数字资源的科学组织与利用已成为我国数字图书馆发展的重要研究方向。针对目前图书馆数字资源的异构性与用户需求的多元性,如何在语义环境下,开发基于用户兴趣与用户需求的资源聚合系统,提高异构资源的集成、共享与互联能力,是数字图书馆资源整合的关键问题之一。   本文针对图书馆数字资源所缺乏的用户行为感知与反馈能力、异构资源聚合能力,提出了在用户行为挖掘方法的基础上对信息资源进行深度链接与有组织的聚合,具体包括:   (1)采用用户行为分析的思想来建立用户行为特征库;   (2)采用词表、词词关联矩阵、模糊集合、本体等思想来规范用户行为特征;   (3)采用语义网框架内的本体方法来构建(以用户为中心的)资源聚合体系;   (4)采用概念分类、概念聚合的思想来构建用户行为特征库内的概念体系;   (5)采用主题图技术为概念体系进行可视化与主题导航;   为最终为以实现有用户行为反馈机制与资源聚合机制的的语义检索提供有效数据支持。   在行文思路上,本文采用理论研究与应用研究相结合的基本思路,以情报学、计算机科学、信息分析、心理学的相关理论方法为指导,结合数字图书馆资源整合技术与用户行为分析手段,提出基于用户行为的图书馆数字资源语义聚合理论方法,并在此基础上设计了一个实证与三个实验,用以充分的数据和实证来支撑本文的方法体系和行文脉络。   全文共分为八章,每章的主要内容简述如下:   第一章绪论。绪论部分首先阐述选题背景与意义,接着对国内外关于数字资源整合、用户行为、语义检索的研究进展作了陈述,在陈述的基础上提出本文的研究题目,研究目的与研究方案,并提出了本文研究的创新点。   第二章理论框架。理论框架部分,对用户行为与语义聚合做出了理论层次上的研究框架。首先,阐述了国内外学者对用户行为的不同认识,给出了笔者自己对用户行为的理解,阐述了用户行为研究方法与整体研究框架;与此并列,也对语义聚合研究的理论研究进行了阐述,从聚合的定义、聚合的理论范式深入到聚合的层次框架。随后,给出了笔者自己对数字资源语义聚合的理解。创造性的提出通过用户行为数据分析来构建用户行为特征库的的方法,对图书馆数字资源进行以用户为中心的语义聚合。   第三章全文的出发点。深入对如何构建用户行为特征库进行了研究。首先从构建用户行为特征库的外部系统环境入手,对分布式异构环境环境下的用户数据行为获取、大数据环境下的用户行为挖掘进行了宏观研究,并依据Map-Reduce思想,对用户数据分组与集成做了理论分析。接着,从数据库的层次结构、用户信任、资源有效获取等角度对构建用户行为特征库的可行性做了可行性分析。接着,开始本章的重点----用户行为特征库的创建:从数据预处理、数据采集、数据抽取,到数据格式标准化几个环节对创建流程进行了详细论述,并在构建特征库的基础上对特征库的层次结构进行了描述。在本章实验部分,笔者依照特征库创建流程,依次用java开发了三个用户行为特征采集与标准化工具。   第四章基于用户行为特征库内的词语集合,创建用户行为词表,研究词词关联和词表聚合。首先,利用成熟的词表技术将用户行为特征库中的词汇进行序化,并根据词频、词语权重等多种因素提取出能代表用户特征的中心词汇,然后讨论了模糊集合理论中词词关系的数据处理问题,在此基础上进行词表中词词关联值的探讨,并通过关联矩阵进行词间语义关系的实证研究。最后根据词间的语义关系进行词表向语义描述的重要工具——本体进行转化,阐述了如何利用词表创建用户行为的本体过程。   第五章主要在第三、四章的技术基础上构建用户行为本体库,并以用户为中心进行本体聚合。首先从用户需求、用户体验、用户兴趣三者为用户行为本体构建的出发点,在本体创建总方向上对用户行为本体构建做出规范。接着,进行了用户本体的存储于操作的相关内容,包括本体存储、本体映射、本体匹配、本体相似性计算、本体开发工具的选择以及本体构建的一般方法,在这些理论与方法的基础上阐述了用户行为本体的构建流程,包括语义标注、语义描述以及特殊本体(用户行为本体)的语义描述方法。紧接着,从本文关键问题之一——本体异构问题入手,提出以用户行为特征为中心的异质本体聚合与融合的解决方案。最后,为了验证本章内容,我们以湖北省图书馆在某一段时间内的部分用户行为数据为数据源,设计了”基于学科概念的用户行为本体聚合”实验,实验将从用户行为特征库中抽取出来的语义信息进行学科分类,同时创建用户行为本体,最后以用户兴趣词为中心,进行本体概念的聚合。   第六章基于已有学科概念分类,创造性的提出对用户行为主题概念的分类与聚合。用户行为概念与学科概念分类类似,都是粒度比较大的义源。因此,概念聚合对于可视化导航尤为重要。接着,讨论了如何将聚合状态的主题概念体系以主题图(Topic Map)的形式呈现出来。最后,在实验部分,通过对图书情报领域的个人博客为数据源,提出了利用主题图技术对以用户查询关键词为中心的,图书馆博客相关概念的链接与聚合方案,并将概念聚合形态进行了可视化呈现。   第七章主要探讨了用户数据挖掘和语义聚合对语义检索的支持。从数字图书馆所处的时代大的环境---语义网开始,逐步讨论了用户行为本体对现有本体库的丰富、用户行为反馈机制对语义检索的作用、语义聚合在语义聚合中所扮演的角色。最后,系统性的归纳了本文的落脚点——面向语义聚合的数字图书馆语义检索实现机制。从内容、形式、服务等方面对数字图书馆的语义检索发展趋势做出了展望。   第八章结语。在所有研究内容与研究思路的基础上总结了研究中存在的难点,并提出了将来作者需要着重研究的方向。  
其他文献
伴随着网络信息的日益膨胀和人们对信息获取的难度的增加,基于文本内容分析的信息处理技术正在快速的发展,众多研究人员对此多了大量的研究工作,也取得了一定的进展,爆发词的出现
21世纪初以来,全球化浪潮带来的新危机问题逐渐显现。2001年美国“9·11”恐怖主义袭击事件、欧洲疯牛病;2003年中国“非典”;2004年印度洋海啸;2008年中国南方冰雪灾害、“5·12
由于信息化程度的不断加深,人们对于信息的依赖程度也不断增加,对于档案信息的利用也显得越来越重要。档案成为服务民众的重要内容之一,越来越受到大众的重视。那么在这样情
对企业而言,应用失效专利技术及其信息,可以加快企业创业与发展速度,帮助企业进行选择与决策、引导企业未来发展方向、为企业提供开发沟通信息、指导企业制定市场政策、避免生产
microRNA是一种可控制基因表达的内源性非编码小分子单链RNA,由21~22个核苷酸组成,存在于多种生物体内。目前,人类基因组中已有1 424个microRNA得到证实~([1])。成熟的单链mi
从理论上分析政府公共危机信息预警的重要性,根据危机信息处理的过程和预警流程构成要素构建政府公共危机信息预警流程。同时,对平衡计分卡的4个方面进行改动,并在此基础上阐述
期刊
期刊
科学技术是第一生产力,是推动经济发展和社会进步的重要动力。技术转移能够推动科技进步和国家自主创新发展,在科技和经济活动中发挥着越来越重要的作用。近年来,我国的技术转移
会议文献和期刊文献在知识的发展和演化中起着不同的作用。本研究以SCI数据库代表期刊文献,以CPCI数据库代表会议文献,以计算机科学和物理学为研究对象,以SCI数据库和CPCI数据库