数字图书馆的信息服务技术研究

来源 :职业时空 | 被引量 : 0次 | 上传用户:s5067744
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  随着Web的迅猛发展,社会信息资源的类型以及信息产生和发布的方式都发生了巨大的变化,图书馆信息服务环境也随之发生了根本性的变化,首先是信息资源空间的数字化,用户信息行为正从文献获取转为数字化网络化地获取信息,并逐步成为一种基本要求和行为习惯。那么,怎样合理、有效地对各类数字信息进行组织、检索、访问和利用;怎样有效利用互联网的优势向用户提供海量數字信息服务;这正是本文研究的重点。
  
  一、数字图书馆信息服务技术的功能
  
  1.可以优化服务资源。数字图书馆的文献资源将以电子化的馆藏为主,各种文献信息资源都转化成数字形式,存贮于一定的载体上。图书馆在资源共享的前提下,应优化开发电子信息资源。首先要使馆藏资源数字化。其次要大力开发网络资源,通过互联网把境外资源引进自己内部服务器,以节省用户上网费,通过网络机器人实现专题信息的自动抓取,以满足部分用户的特定需求。
  2.可以转变信息服务模式。在数字图书馆环境下,用户查阅信息的模式将彻底改变,用户和信息服务人员将通过网络传递请求和信息,并以用户为中心,根据用户的需求,信息服务人员适时、主动地向用户提供知识化的信息咨询服务。要实现此模式(user-centered),首先要加强用户需求的调研和预测,以增强信息服务的针对性和时效性:其次要注重用户认知能力的培养,使用户树立信息意识激发信息需求。所谓用户信息认知能力是指用户对媒体的认知能力、计算机操作应用能力、网络认知能力以及传统的图书馆利用能力等。
  3.可以改革信息工作体系。传统的信息工作是一种线性模式,文献信息经过采集、整理加工、流通传递、检索咨询等环节才能到达用户手中,而这些环节是彼此分离的,由不同的人员来完成,结果使工作始终停留在文献信息的表层,对信息内容难以有效揭示,从而限制了信息服务的水平。在数字图书馆环境下,信息的取得和加工都变得极为方便和迅速,既能使传统信息服务环节由一个人完成,更能使信息服务人员以信息内容为中心,并且可以对内容单元进行重组和研究,从而将信息服务的水平大幅度提高。信息机构将按知识体系来形成工作体系,每人以固定的知识类别为工作对象,采集加工、研究信息内容、提供信息咨询服务,总体上由综合协调人员来把握全局。这样可以进一步深化服务内容。
  
  二、数字图书馆信息服务的关键技术
  
  数字图书馆信息服务的信息推送和信息推送的所需元数据的主动抓取,主要应用技术包括:OAI协议、移动Agent技术、信息过滤技术和XML语言。本文重点介绍信息过滤技术。
  1.信息过滤技术的分类
  (1)基于内容的过滤。基于内容的过滤源于信息检索,采用了与信息检索相似的技术。信息对象(如文本文档)的过滤是建立在其内容与用户兴趣模型文件相比较的基础上的。基于内容过滤的系统的优点是简单、有效;缺点是:首先,基于内容的技术在碰到相同主题的文档时,很难区分质量的高低;第二个问题是不能为用户发现新的感兴趣的信息。由于系统只能将与用户兴趣文件相比较得分高的文档推荐给用户,用户将局限于看到那些与已评估过的文档相似的文档。
  (2)协作过滤。协作过滤的出发点在于任何人的兴趣不是孤立的,而是处于某个群体中的。系统根据相同或相近兴趣的用户对相应信息做出的评价,向其他用户进行推送,与基于内容的过滤相比,协作过滤有下列优点:能够过滤难以进行机器自动内容分析的信息,像艺术品、音乐、电影等;能够基于一些复杂的,难以表述的概念(如质量、品味)进行过滤;具有推荐新信息的能力。但是,协作过滤也存在一定的局限性:其一,要想获得满意的效果,需要建立在拥有大量的用户评价信息的基础上,这很难做到(几乎都集中在音乐、电影等娱乐方面),使得协作过滤技术应用领域较为狭窄,在更广的领域(如在文本过滤相当成功的文本相关性领域)的应用还很不够;其二,系统的可扩展性较差,即随着系统用户和信息资源的增多,系统的性能会下降。
  2.信息过滤的算法类型
  信息过滤是个性化主动服务的重要环节。根据实现的原理不同,信息过滤分为基于内容的过滤和协作过滤以及把两者结合起来的混合过滤。我们根据数字图书馆信息服务的特点,设计了一种基于移动Agent的信息过滤算法。
  (1)移动Agent的信息过滤算法。信息过滤Agent根据用户已有信息资源分析用户喜好,建立用户信息的兴趣库,并且可以根据用户Agent收集的信息的不断变换不断修正兴趣库。
  (2)移动Agent的信息过滤算法的实现。信息过滤Agent采用向量空间法进行过滤的主要思想是按照信息中各个关键词的出现频率建立关键词向量,根据各关键词向量在向量空间中的夹角确定信息之间的相似度。系统将与用户原有信息相似度最大的信息推荐给用户。
  3.关键词向量的计算方法
  (1)信息预处理。原始信息中含有大量无意义的词汇,如冠词、连词等,必须首先通过一个stop word表把它们去掉。对于以英文为代表的西方文字,需要通过词的修剪(stemming)将同一个词的不同形式统一,例如动词的不同时态变原型,名词的复数变单数。对于中文,由于各个词之间缺少分隔符,需要进行切割词语工作。
  (2)关键词向量映射。预先定义一个关键词词表,形成一个关键词空间。
  (3)关键词向量合成。由于Agent中包含多条信息,为了提取这个Agent的整体特征,将Agent中所有信息映射后的关键词向量进行矢量合成,得到新的向量。
  (4)关键词向量降维。由于关键词向量的维数较高,分类器采用阈值分界法提取向量的主要特征。
  (5)得到代表Agent兴趣的关键词向量以后,采用其中出现频率最高的关键词,到信息数据库中查找相关信息。
  在信息过滤的过程中,从文档中提取关键字是最为重要的一步。对于算法本身,不管采用多么好的模式匹配方法,系统只有接受高质量的关键字,模式匹配算法才能发挥它的应有效率。
  当信息过滤Agent打开一个XML文档时,它读取文档的title,head,text等元标识对之间的内容。提取这些元标识对之间的信息后,再在这些信息中提取关键字。同时,对于有keywords或关键字字样的文档,可直接提取它们后面的几个短语关键字。对提出的所有词按其在文档中的每个位置打分,将各个位置的分数累计,按总分多少排序,总分最多的就认为是关键字了。
  
  三、结束语
  
  数字图书馆最重要也是最基本的职能是信息服务功能。现代信息服务是以信息技术为核心和动力发展起来的,信息技术的超速度发展必然要带动信息服务模式的转变。从“以资源为中心”的信息服务模式向“以用户为中心”的服务模式转变是数字图书馆发展的必然趋势。因此,在数字图书馆中构建自适应用户需求的信息服务系统成为数字图书馆信息服务的一个主要研究方向,该系统应能够主动分析用户需求、主动搜索、加工信息,并主动发布信息,变“人找信息”为“信息找人”以用户为中心,满足用户对信息的渴求。
  
  (作者单位:西昌学院图书馆)
其他文献
人力资本学说是美国经济学家西奥多·W·舒尔茨率先提出的。他认为:人力资本存在于人的身上,表现为知识、技能、体力(健康状况)价值的总和;人力资本是投资形成的,投资渠道
目的 探讨药物提高和改善高原环境下脑-体作业能力过程中的肺功能与血氧饱和度(SaO_2)的变化。方法 选择移居海拔3700米高原6个月的健康男性青年40名分成A(对照组20名)、B(服
摘要:高职教育作为高等教育的一个类型,承担着特有的任务,其人才培养目标与其他层次、类型的教育也是不同的;对于人才培养目标的不同定位,势必影响高等职业院校的人才培养方向、模式以及效果。为了进一步提高高职院校的人才培养工作水平,进一步优化社会的人力资源配置成本,指导学生开展有特色、富有实效的职业生涯规划成为一项重要工作。文章从分析高等职业教育的人才培养目标着手,探讨了高等职业院校学生职业生涯规划的新思
我院自1999年2月-2002年6月首次在西藏高原地区选择性地对48例高血压脑出血病人进行了床边锥颅微创血肿引流术,尿激酶灌注的综合治疗及全面护理,取得了较好的临床效果,现将护理
摘要:从中国口译员地位偏低和提高译员社会地位两方面进行了分析,初步总结了我国从口译认证考试、口译研讨会、口译教学及口译行业规范化四个方面对提高译员社会地位所做的努力。  关键词:口译译员;社会地位;口译认证考试,口译行业规范化    口译的起源很难考证。一般认为,口译的出现先于文字的使用。虽然口译是一种古老的人类活动,但一直到20世纪,人们都还普遍认为口译太普通,根本不值一提(Pochhacher
噬血细胞综合征(Hemophagocytic Syndrome HPS)又称噬血细胞淋巴组织增生症(HLH),是单核.巨噬细胞系统反应性疾病,以组织细胞良性大量增生伴有明显的吞噬血细胞现象为特征,其临床表现
随着人类文明的进步,人文关怀服务已经成为现代医学文明和现代医院的重要标志。护理人文关怀的核心是“以人为本”,是科学加艺术层面上的护理“灵性”。妊娠是人生大事,是一次人
作为高等教育的重要组成部分,高职高专的根本任务是培养拥护党的基本路线.适应生产、建设、管理、服务等一线,且有创新精神、创业能力和可持续发展能力的高等技术应用型专门人才
目的 了解肺结核病原菌对抗结核药物的耐药程度,探索有效的治疗方法。方法 对125例难治肺结核患者应用不同药物的治疗效果进行分析。结果 耐1种药物占35.2%,耐2种药物占27.2%,耐3种
周围神经包括31对脊神经及12对脑神经,在骨科领域常见的周围神经损伤主要为脊神经所组成的神经丛及其所发出的神经干的损伤。各种原因致神经产生病理学改变或连续性中断,使神经