论文部分内容阅读
随着信息技术的发展,电子图书异军突起,以其独特的优势受到读者的热爱,成为新一代电子新星。用户对电子书的需求不断增加,Internet上的电子书资源也以指数级增长。基于关键词的传统检索工具已经很难满足用户对电子书信息的查询需求,要提高检索精度,就必须挖掘查询词的语义信息。由于本体能在语义层面上描述信息,并且支持逻辑推理,已经被广泛应用到信息检索、知识工程、数字图书馆、信息处理、语义web等领域之中。在传统信息检索系统中加入本体,能够对用户的查询请求进行语义扩展,挖掘查询词的隐含信息,克服了关键词检索中不能对概念之间的关系进行处理的缺陷。基于此,本文构建了一个基于本体的电子书web信息检索系统,该系统借助检索部分对扩展后的关键词与电子书库中的资源进行文本相似度计算,使检索到的结果更加精确。本文针对语义相似度信息内容参数进行了详细的研究,提出了一个基于熵的IC参数新模型,引入熵的概念,该模型不仅考虑了WordNet中is-a关系分类树中子节点数目,还考虑了概念所处分类树中的深度和子节点的空间结构。经过实验对比,该IC参数能够提高语义相似度算法的性能。在此基础上,对文本相似度算法做了深入研究,利用文本中词与词的关系,设计了文本相似度改进算法,为提高信息检索的精度打下了良好的基础。最后,构建了一个基于本体的电子书web信息检索系统。主要工作如下:首先,介绍了本文的研究背景和依据,探讨了已有的信息检索存在的缺陷,分析了基于本体的信息检索特点以及语义检索领域的国内外研究现状。其次,阐述了本体的概念、分类、建模元语、层次结构,重点介绍了本体在信息检索领域的应用,提出了基于本体的电子书web信息检索系统架构。再次,简单介绍了构建本体时需要的WordNet资源库,并对语义相似度信息内容IC参数进行了详细的研究,提出了IC参数改进模型。然后,研究并设计了文本相似度算法,为提高检索准确度打下了良好的基础。最后,在对课题中关键技术充分研究的基础上,将检索系统架构应用到电子书检索领域,设计并实现了基于本体的电子书web信息检索系统。