基于本体的电子书web信息检索研究

来源 :曲阜师范大学 | 被引量 : 0次 | 上传用户:C12sdn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的发展,电子图书异军突起,以其独特的优势受到读者的热爱,成为新一代电子新星。用户对电子书的需求不断增加,Internet上的电子书资源也以指数级增长。基于关键词的传统检索工具已经很难满足用户对电子书信息的查询需求,要提高检索精度,就必须挖掘查询词的语义信息。由于本体能在语义层面上描述信息,并且支持逻辑推理,已经被广泛应用到信息检索、知识工程、数字图书馆、信息处理、语义web等领域之中。在传统信息检索系统中加入本体,能够对用户的查询请求进行语义扩展,挖掘查询词的隐含信息,克服了关键词检索中不能对概念之间的关系进行处理的缺陷。基于此,本文构建了一个基于本体的电子书web信息检索系统,该系统借助检索部分对扩展后的关键词与电子书库中的资源进行文本相似度计算,使检索到的结果更加精确。本文针对语义相似度信息内容参数进行了详细的研究,提出了一个基于熵的IC参数新模型,引入熵的概念,该模型不仅考虑了WordNet中is-a关系分类树中子节点数目,还考虑了概念所处分类树中的深度和子节点的空间结构。经过实验对比,该IC参数能够提高语义相似度算法的性能。在此基础上,对文本相似度算法做了深入研究,利用文本中词与词的关系,设计了文本相似度改进算法,为提高信息检索的精度打下了良好的基础。最后,构建了一个基于本体的电子书web信息检索系统。主要工作如下:首先,介绍了本文的研究背景和依据,探讨了已有的信息检索存在的缺陷,分析了基于本体的信息检索特点以及语义检索领域的国内外研究现状。其次,阐述了本体的概念、分类、建模元语、层次结构,重点介绍了本体在信息检索领域的应用,提出了基于本体的电子书web信息检索系统架构。再次,简单介绍了构建本体时需要的WordNet资源库,并对语义相似度信息内容IC参数进行了详细的研究,提出了IC参数改进模型。然后,研究并设计了文本相似度算法,为提高检索准确度打下了良好的基础。最后,在对课题中关键技术充分研究的基础上,将检索系统架构应用到电子书检索领域,设计并实现了基于本体的电子书web信息检索系统。
其他文献
伴随着电视广播的全面数字化,数字电视产业这一新兴产业已经引起广泛的关注。许多国家根据自己的国情,已分别制定出由模拟电视向数字电视过渡的方案和产业目标。在目前数字与
近年来,中国的通信事业迅速发展,带动了通信测试市场的高速增长。通信测试领域除涉及传统的交换以及各种传输网如光纤、微波卫星通信系统的测试外,还涉及各种宽窄带通信、计算机
Ad hoc网络指的是由若干带有无线收发信机的节点构成的一个无中心的、多跳的、自组织的对等式通信网络,它可以不依赖预先存在的网络基础设施而快速展开,自适应组网,各节点可
信息技术的发展,对全球的经济、政治、科教、军事等社会发展的各方面带来了重大的影响。信息化不仅仅使人类社会获得了高效率和便利,同时也给人类社会带来了威胁和风险。从Wind
学位
随着科学技术的不断发展,信息技术正越来越多地影响着我们的日常生活。互联网技术的发展使得计算机的应用更加广泛。与此同时,信息安全问题也变得越来越重要。最近,信息系统的用
WCDMA作为第三代移动通信标准之一,是目前GSM网络的自然演进,由于其良好的兼容性及可发展性,得到了广大运营商的青睐。WCDMA系统所提供的可变速率、多业务能力,为运营商提供了坚
IEEE488总线以其具有系统构造简便,成本低廉,且兼容程控仪器标准命令集等特点而成为自动测试系统中在工业测试中应用最广泛的通信方式之一。IEEE488总线采用字节串行双向异步方
由于WEB服务器的广泛使用,保证WEB服务器的安全成了一件十分紧迫的事件。防火墙技术作为一种有效的安全技术,可以保护网络的安全。但是防火墙技术的重点是针对具体的数据包进行
目前移动通信技术给人们带来了高速的CDMA2000 1X无线数据传输业务,这是一项新型的数据承载业务,它将移动通信技术和IP技术有机结合,组成移动IP网络,可与高速发展的固定IP网络实