基于用户兴趣本体的数字图书馆个性化检索研究

来源 :中国科技博览 | 被引量 : 0次 | 上传用户:falconlingzi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  [摘 要]为满足数字图书馆信息检索中用户个性化需求,本文描述了一个基于用户兴趣本体的个性化检索模型.该模型将用户兴趣本体应用于图书馆检索,包括用户兴趣模型的构建、用户兴趣查询扩展以及个性化检索结果排序等。在用户访问数字图书馆过程中,利用用户兴趣本体来匹配和扩展用户关键词,实现语义化的检索,满足用户个性化需求。
  [关键词]用户兴趣本体 个性化检索 数字图书馆
  Research on Personalized Retrieval of Digital Library Based on
  User-interest Ontology
  Shen Yanjun
  (Zhejiang Normal University,JinHua ZheJiang 321004)
  Abstract:To meet the needs of individual users in the digital library information retrieval,this paper describes a personalized search based on user interest ontology model and the model user interest ontology used in the the the library retrieval process,including building and updating user interest model,semantic similarity calculation,as well as personalized search results ranking. In the process of user access to digital libraries,user interest ontology matching and extended user keywords,semantic retrieval to meet the needs of individual users.
  Keywords:User-interest Ontology Personalized Retrieval digital library
  中图分类号:[C7] 文献标识码:C 文章编号:1009―914X(2013)25―0544―04
  0 、引 言
  数字图书馆是一个海量分布式数据库,存储各种形式的信息,将图书馆馆藏信息以数字化形式进行收集、整理、存储、发布,用户可以通过网络方便地访问,获取需要的信息。随着信息技术的快速发展,数字图书馆需要存储的海量数据的复杂性、动态性和用户信息的普遍性等特点已经不能满足用户个性化的需求。如何在数字图书馆访问中及时地、有效地、精确地定位用户需求的信息资源逐步成为提高数字图书馆检索的重点。
  本体(Ontology)作为一种能够在语义和知识表示上描述概念体系的有效工具,其具有良好的概念层次结构和对逻辑推理的支持,其目标是捕获相关领域的知识,提供对该领域知识的共同理解,确定该领域内共同认可的词汇,并从不同层次的形式化模式上给出这些词汇(术语)和词汇间相互关系的明确定义[3],在信息组织、信息和语义检索领域得到了广泛的应用。
  因此,本文有效地将数字图书馆与本体技术相结合,提出一种基于用户兴趣本体的数字图书馆个性化检索模型,该模型将用户兴趣本体应用于图书馆检索,包括用户兴趣模型的构建、用户兴趣查询扩展以及个性化检索结果排序等。在用户访问数字图书馆过程中,将用户输入关键词提交给本体模型,通过本体对关键词进行语义扩展,得到以用户兴趣为背景的语义关键词,实现语义化的检索,满足用户个性化需求。
  本文从构建用户兴趣本体出发,并将其应用于数字图书馆信息检索过程中,阐述如何本体技术实现用户个性化检索要求。
  1、 本体和数字图书馆
  1.1 本体
  本体(Ontology),是以存在为核心的各种领域通过逻辑方法组织的哲学原理的一门理论,是“对世界上客观事物所进行的系统描述,即存在论”。在人工智能领域,最早被广泛应用的Ontology 定义是Gruber给出的,“本体概念模型的明确的规范说明”[4]。领域本体是对相关领域分析和建模的结果,其描述领域中的概念及其概念间的关系,从语义角度表示为对象的集合,用自然语言对概念进行描述;成为领域内的知识表达、行为策略与推理、及知识共享研究的理论基础。用户兴趣本体,主要是针对于每一个用户构建的属于他们自己的用户兴趣主题模型,目的是描述在用户兴趣领域内的概念间的层次关系[4]。通过用户自身本体的使用,不在关心领域本体数据的复杂性,但是由于用户兴趣的差异,其对应的本体也是不同的。本体的定义包含六个元素 。其中C表示概念集; 表示每个概念的属性集;R表示关系集; 表示每个关系的属性集;H表示概念层次;X表示公理集[1]。
  目前,本体的构建大都采用人工构建,半自动方式或动态构建方法。本文将运用FCA(形式概念分析)技术来构造本体的方法。FCA是对形式背景进行分析,通过抽取概念和属性,并形式化的表达概念语义层次,形成概念格过程。在形式概念分析中,概念的外延为包含概念的对象的集合,概念的内涵为对象共有属性的集合,所有概念之间的关系构成概念格。具有代表性的基于形式概念分析的本体构建方法如:FCA-MERGE方法[3]。
  1.2 基于本体的数字图书馆的应用
  本体技术在数字图书馆中可用于数据和信息的组织、分析和挖掘,提取有用信息,并为人们学习和知识扩展提供互动操作平台,以本体为语义基础,有利于促进数字图书馆的语义识别和个性化检索功能。本体技术在数字图书馆中的应用总结如下:(1)通过本体可以描述相关领域的知识结构和规范。通过本体对资源库的领域知识进行识别和规范描述,达成领域内关于知识和概念及概念关系之间的共识。(2)通过本体的概念属性可以体现相关领域语义知识层次和概念分布。(3)通过本体概念之间的映射关系,可以作为数字图书馆的语义关系的基础,成为提供元数据服务的一部分。(4)根据信息环境和本体概念间语义关系,提高不同领域的理解能力。(5)数字图书馆的信息检索,实现数字图书馆的个性化检索[4]。   2、 用户兴趣本体构建
  本文使用FCA的方法进行构建本体,主要是根据本体和概念格描述概念的一致性,通过对已有本体资源相似或相关信息进行FCA概念抽取和整合,生成新的本体,提高本体利用率和本体构建效率。为了说明本体对应的概念格的生成方法,本文选择10篇用户浏览的文档,D={doc1,doc2,doc3,doc4,doc5,doc6,doc7,doc8,doc9,doc 10},对应概念C={walking,swimming,trip,fishing},生成形式背景。其中,概念作为形式背景中的属性集,而文档集D作为形式背景中的概念集,如果本体中的一个概念C在文档集D的中出现,则添加该关系到形式背景中[4],如图1所示。
  表1 形式背景和对应的概念格
  Table1 Formal context and Concept lattice
  在2001年,Stumme和Maedche提出了用FCA进行本体合并的方法FCA-Merge方法,主要思想是采用自底向上的方法对两个概念相关或相似的源本体进行合并,并产生一个新的本体的过程。该合并过程主要有三个步骤:①对源本体进行概念抽取并计算,得到对应的两个形式背景。②对两个形式背景进行合并运算得到一个形式背景,并将其转化为对应的概念格。③ 在概念格的基础上生成结果本体。其具体的合并流程如图1所示。若通过对用户浏览记录反应了用户兴趣所在,可以使用FCA-Merge方法对用户日志进行分析和整理,建立构建用户兴趣本体,从而指导用户检索行为,得到更多的兴趣信息。
  图1 本体合并流程
  3、 基于用户兴趣本体的数字图书馆检索模型
  3.1 检索流程
  本文目的是通过本体描述用户兴趣,指导用户检索行为,发现更多与用户兴趣相关的主题信息。基本流程如下:首先,根据用户以往的搜索日志,预处理,按照FCA-Merge方法构建用户兴趣本体;第二,通过提交用户查询词给用户兴趣本体,经过本体概念和关系的学习方法,得到扩展的用户查询词;第三,将该用户查询词提交给数字图书馆检索窗口,计算用户查询词与返回结果的相似度,并按照相似度大小进行排序返回给用户界面;第四,将检索结果存储为用户日志,用于进行用户兴趣本体的更新。具体的检索流程如图2所示。
  图2 检索流程图
  3.2 用户兴趣的语义扩展
  用户兴趣本体语义扩展的是数字图书馆个性化检索的重要环节,它通过用户兴趣本体来表达和校正用户自身兴趣集中体现。通过对本体的概念及其关系的训练,调整其兴趣概念及其关系的权重,逐步使得权重能够表达用户查询词的兴趣强度。
  3.2.1 用户兴趣的概念学习
  用户兴趣本体各个概念的初始化值通过TF-IDF [4]方法(公式1)计算得到。随着时间的推移,用户兴趣也随之改变,为了使用户兴趣本体在特定的时间内能够准确的描述个人的兴趣特征,需要更新该用户兴趣本体,该过程通过公式2对用户兴趣概念值进行修正。例如,某研究学者对数字图书馆感兴趣,那么他在当前时间段内所关注的是关于数字图书馆发展及其技术相关的信息,要比上一段时间所浏览的更多的文档。因此,该在用户兴趣本体中,“数字图书馆”等相关的概念和关系的权重就要比其他时刻权重的值更大一些,以便能够准确的描述该用户此时的兴趣。公式1,TF-IDF公式如下:计算权重 的公式如下:
  (1)
  其中, 表示兴趣词汇 在文档 中的词频, 表示用户兴趣本体中概念的总数, 表示词汇 在文档 中的个数, 为单个词频的最大个数。参照公式(1),提出以下公式用于修正用户兴趣本体概念的权值:
  (2)
  其中, 表示得到的概念 的修正权值, 为指定常量, 为修正前的 的权值, 为用户兴趣本体中含有概念的个数, 表示词汇 在文档 中的个数。
  3.2.2 用户兴趣的关系学习
  在本文中,本体的概念间关系的权值的初值,根据用户兴趣词在文档中的共现频率来计算的。通过计算本体的相邻概念在所有文档中共同出现的概率,得到概念之间的关系,这种关系被设置为用户本体概念之间的关系的权重,表达相邻概念的关系。随着用户的兴趣的不断变化,用户兴趣本体的概念之间的关系权重也随之更新,其概念之间关系的权重调整公式3如下:
  (3)
  其中 是规范化的一个标准常量, 表示用户兴趣本体概念 和 未调整前的权重, 代表用户兴趣本体概念 和 在文档中的共同出现的次数,即:共现频率, 和 为更新后的权重, 表示用户兴趣本体概念。
  通过概念以及概念之间关系的知识学习,用户兴趣进一步迁移,导致用户兴趣本体随之发生改变。图3显示了用户兴趣本体的概念以及概念之间关系学习的演变过程。
  图3用户兴趣本体学习过程
  3.2.3 用户查询词语义扩展
  首先需要对用户查询词进行如切词、分词等预处理处理,然后对其进行向量化,用户查询词向量 ,对应的权重向量 ,其中 计算如公式4[6]:
  (4)
  其中, 表示查询词 在用户查询 中的频率。在用户查询词扩展过程中,通过本体的概念及其关系,并结合概念信息内容相似度[4]公式来扩展:
  (5)
  其中, 表示概念 和概念 的信息内容相似度, 和 分别代表该时刻概念 和 的权重, 代表概念 和 的父亲概念权重 表示该时刻概念 和 关系的权重。
  例图4为某一用户的对应的用户兴趣本体的实例。对于 ,若给定该用户的兴趣查询词向量是 =((计算机,0.45),(医学,0.23),(语言学,0.24)),将该向量提交给用户兴趣本体进行扩展,结合公式(5),计算用户查询词 “计算机” 和 “计算机软件”的相似度,过程如下:   若扩展阈值w为0.25,那么概念“计算软件”作为用户兴趣加入查询词 中, =((计算机,0.45),(医学,0.23),(语言学,0.24),(计算机软件,0.0335))。
  图4 一个加权的用户兴趣本体
  3.3 语义相似度计算
  计算返回结果向量 和扩展的用户查询向量 的相似度,其中, 表示扩展的概念权重,通过下面公式计算得到的,如公式6:
  (6)
  其中, 概念 在返回的文档集合中出现的频率。
  然后通过公式7进行计算以上两个向量的相似度,并按照相似度大小进行排序,将相似度大的搜索结果返回给用户,相似度计算公式如下[7]:
  (7)
  其中,权重 是通过公式4计算得到。
  4 、实验结果
  本文实验数据集收集对象为计算机领域的用户,构建用户兴趣本体是根据该用户进行数字图书馆检索的浏览页面。首先,用户提供7个计算机领域的关键词,如{“计算机语言”,“操作系统”,“计算机科学”,“硬件系统”,“软件系统”,“开源代码”,“计算机应用程序”},提交给数字图书馆检索入口,收集每一个查询词对应的浏览排名前5的页面,收集该数据集利用本文的方法进行构建用户兴趣本体。然后,该用户提供其他计算机领域词汇,提交给用户兴趣本体,经过查询词扩展后提交给数字图书馆进行检索,选择前20个检索结果进行判断其相关性。
  将该结果与基于查询词匹配的检索结果对比如下:
  其中,表2中计算每一个用户查询词检索结果的相关性的平均值,公式8如下:
  (8)
  通过平均值对比本文的方法与关键词匹配的方法,如图5所示:
  图5实验结果柱状图对比
  Fig.5 average experiment result
  图5显示,在用户浏览相同网页数量的条件下,基于用户兴趣本体的方法,能够检索到更多与查询词相关网页信息。因此,用户兴趣本体可以为用户检索提供帮助,可以确定,基于用户兴趣本体的方法进行数字图书馆精确检索是一种可行的方法。
  5 、结束语
  由上可见,本文描述的基于用户兴趣本体的个性化检索模型.进行数字图书馆检索式可行的,借助用户兴趣本体提供用户检索经验和知识背景,能够满足用户个性化需求。通过实验表明,该模型能够较好地提高数字图书馆信息检索的精度,为用户提供更多相关页面。然后,当用户数据量逐渐增多或知识背景复杂时,本体构建也随之转变为十分繁重的工作,同时也将影响检索效率,因此有效地构建用户兴趣本体有待于进一步研究。
  参考文献
  [1] CHALUPSKY H.OntoMorph:A translation system for symbolic kowledge[C].Proc.KR’00,Breckenridge,CO,USA:University of Kassel Press,471-482.
  [2] MCGUINNESS D L,FIKES R,RICE J et a1.An environment for merging and testing large ontologies[C].Proc.KR’00,Germany:University of Kassel Press,483-493.
  [3] FRIDMANNOY N,MUSEN M.PROMPT:Algorithm and tool for automated ontology merging and alignment[C].Proc.AAAI’00,Texas U.S.:Austin Press,2000,3:34-54.
  [4] 智慧来,智东杰,刘宗田. 基于概念格的概念相似度计算[J].成都:计算机科学,2008(09).
  [5] 梁凤凤.基于本体的分布式语义Web服务发现研究[D].北京:北京邮电大学,2008.
  [6] 杨楠,高洁,薛鸿鹄等.Web紧密核的抽取和评价方法[J].东南大学学报,2008,24(3):334-337.
  [7] 巴伊赞-耶茨等.现代信息检索(英文版)[M].北京:机械工业出版社,2004,457-467.
  [8] 吴锦荣.情报探索[J].湖北:武汉大学出版社出版社,2012,5(3):115-118.
其他文献
[摘 要]电动汽车的发展在于蓄电池材料的开发,而电池材料在一段时间内并不会有很大的突破,因而目前解决这些问题的方式,最好莫过于拓展储能空间,但是目前的汽车空间设计基本上已经达到了极致,因而只有改善动力结构才能从根本上拓展电能的储蓄空间。基于此种理念,本文设计了一款新型的车轮结构——电磁感应驱动车轮,以电机为设计启发点,由车轮的改进设计影响电池的大小,开发出了一种崭新的电动汽车设计思路。  [关键词
期刊
[摘 要]金渠金矿区位于老鸦岔复背斜中段北翼,西阴—雷家坡次级向斜核部。矿区内出露地层为太古界太华群,区域变质、混合岩化作用强烈,岩浆活动频繁,韧、脆性不同深度层次形成的断裂构造发育,金矿脉分布普遍,找矿前景良好。  [关键词]金渠金矿 矿体 矿石 特征  中图分类号:P612 文献标识码:A 文章编号:1009-914X(2013)25-0275-01  1 矿区地质概况  矿区出露地层主要为太
期刊
[摘 要]随着计算机技术快速发展,计算机被广泛应用于石油勘探及开发当中,已成石油地质科研人员不可或缺的工具,分析化验作为油田生产、开发与研究的重要环节,构建数据库资源库,加强化验数据成果的可视化应用与评价,可有效完善油田的实验分析,为油田开发利用提供可靠的参考依据,本文就油田分析化验数据的成果可视化与评价进行了分析讨论。  [关键词]油田;分析化验;数据成果;可视化;评价  中图分类号:TP311
期刊
[摘 要]燃气供销差是指燃气供应总量和销售总量的差额,燃气供销差率是指燃气供销差与燃气供应总量的百分比,燃气供销差产生于燃气供应销售的全过程,涉及到工艺设备、工程施工、计量表具及企业管理等诸多环节。因此,降低燃气供销差率决不是制定几项简单措施就能一撮而就的问题,而应把它当作一项系统工程去研究,并制定相应对策逐一解决。那么如何才能有效降低燃气的供销差率呢,本文总结了几条重要的措施和办法。  [关键词
期刊
[摘 要]蒸汽作为工业生产中应用最广的热媒,在间接加热设备中释放出潜热以后形成凝结水而尽快排出。蒸汽冷凝水作为余热,含有 20-30%的蒸汽热能,又是品质优良的脱盐水。因此,合理而高效地回收蒸汽冷凝水,具有特别的经济效益和社会效益,也是我国大力提倡实现“循环经济”的一个有效途径。蒸汽供热系统节能可以从不同环节着手,蒸汽凝结水的闭式回用是提高蒸汽供热系统热效率的重要措施。目前很多工厂企业都在采用这种
期刊
[摘 要]从理念出发重新了解封山育林,表明封山育林的内涵,进一步剖析封山育林的对象以及它的特点。按照树种的比例以及培育的目的,封山育林分为三种方式和五个类型。文中会具体的提出关于封山育林方面的组织措施以及技术措施。  [关键词]封山育林 混交林 工程建设  中图分类号:S755 文献标识码:A 文章编号:1009-914X(2013)25-0285-01  一、封山育林的含义  封山育林在中国的林
期刊
[摘 要]高效聚光太阳电池具有很高的光电转化效率,成为世界各国研究的热点领域。但在利用聚光系统对高效聚光太阳电池充电的过程中会产生过高的温度,从而影响太阳电池效率的提高。所以,对太阳电池散热的研究具有实际意义。本文运用数学物理方法,通过建立温度梯度方程,利用边界条件处理微分方程,在使用matlab分析和设计散热板,最后,用origin软件处理数据。根据建立的散热板热传导方程,继而对一维、二维散热板
期刊
[摘 要]随着我国市场经济的不断完善,质量检验作为产品质量体系中的重要环节,已成为产品质量的重要保障。利用创新理念,加强质量检验工作的效率与能力,可有效促进企业产品质量的提高与改进。本文主要针对创新理念对综合化验室质量检测能力的提高进行分析讨论。  [关键词]创新理念;综合;化验室;质量;检测能力  中图分类号:F426.22 文献标识码:A 文章编号:1009-914X(2013)25-0279
期刊
[摘 要]影响煤矿开采的重要原因之一是古河流的冲刷,除此之外,古河流冲刷还对煤炭的回收率、原煤质量有着直接性的影响。本位选取一定实例,系统探讨了古河流冲刷的原因和对煤炭开采的不利因素,同时结合开采实践经验,提出了相关具有参考作用的预测方式。将这几种预测方法有机结合,应该能够对煤炭的开采产生有利作用。  [关键词]煤矿开采 古河流 冲刷  中图分类号:TU272.1 文献标识码:TU 文章编号:10
期刊
中图分类号:P612 文献标识码:A 文章编号:1009-914X(2013)25-0281-01  一、立项的目的意义及必要性  随着市场竞争日趋激烈,企业进入微利时代,如何提高企业竞争力,增加企业的盈利能力,是摆在企业决策者面前的头等大事,开源节流是必要的手段。对于企业自身而言,降低综合运营成本是有多方面可以挖掘潜力的。电力成本作为我公司来说是主要成本之一,2012年仅地面生产用电大约支出电费
期刊