全文检索技术的研究与实现

被引量 : 28次 | 上传用户:jianlzho
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络信息资源的急剧增长,出现了越来越多的专业化网站,如何从这些网站内海量的网络信息中,抽取出全面的、准确的信息,在用户解决问题的过程中发挥作用,已变得越来越重要。搜索引擎技术解决了用户检索网络信息的困难,目前全文检索技术正成为计算机科学界和信息产业界争相研究、开发的对象。本文针对在北京工业大学技术转移中心网站的实际需要,对全文检索技术在技术转移中心网站的应用进行了较为深入、系统的研究,通过全文检索系统为网站的用户提供多方面、更准确的信息。本文首先对全文检索技术进行了细致的研究,对全文检索的各项技术和基本原理进行了深入的探讨,详细分析了全文检索系统的结构和索引的组织、库结构和创建过程,提出了优化索引创建过程的方法,通过把临时文件映射到虚拟内存中,大大加快对临时文件的访问速度,提高了索引的创建速度。另外对检索的四种模型、排序算法和中文分词技术进行了重点研究和总结,并针对词典分词法的不足,改进了最大匹配算法,充分实现了“长词优先”的原则。然后对常用的全文检索工具包Lucene进行了详细的分析,并与其它开源全文检索方法进行了比较。本文还对J2EE平台上典型的MVC模式和它的具体实现-Struts框架进行了分析和研究,分析了MVC框架原理、Struts框架基本组件和Struts框架的运行机制。本文最后对技术转移中心网站的站内全文检索功能的设计目标进行详细的论述,设计了全文检索系统的架构和各个功能模块,其中,功能模块设计包括静态页面模块、动态页面模块的设计,分词方法的优化、Lucene排序算法的改进以及分词引擎中的字典和网站的索引的设计。通过对分词方法的优化,将单汉字分词与词典分词两种方法结合起来使用,使检索结果兼具有相关度好和查全率高的优点。通过对Lucene排序算法的改进,增加了对网页链接的评分和对网站重要信息的加分,提高了网站内搜索系统的准确度。最后本文根据整体设计和各个模块的设计完成具体功能的实现,并部署在实际网站中测试运行。
其他文献
本论文《被动太阳能技术在建筑设计中的若干应用方法研究》出发点是对现在建筑设计开始阶段研究过程方法的探讨。本论文作者觉得建筑应该深入地研究地段条件情况,从基础设计
通过考证阴虚型鼓胀和黄疸的源流,结合临床提出:肝肾阴虚,湿热水饮内蕴是失代偿期肝硬化的基本病机。滋阴清利法是此阶段的重要治法,滋阴与清利存在矛盾,运用滋阴清利法时,必
物流配送车辆路径优化问题(Vehicle Routing Problem, VRP)已经被证明属于NP-Hard问题。传统的研究在模型建立上比较单一,没有对求解模型的算法进行深入探索并且在算法选择方
在自然界生生不息的进化中,产生了人类。人,从一开始就是自然的产物,是自然的一部分。人类要生存和发展,就必须开发和利用自然。在远古时代,先民对自然界怀有敬畏之心,尚能和
现代学徒制是中国高职教育改革的重要途径,是通过学校和合作企业联合办学,侧重提升学生技能的现代人才培养模式。在现代学徒制视阈下,要更好地进行思政教育,需分析思政课面临
居住区室外景观环境的重要性越来越被人们所认识。园林景观的建设成为当今居住区建设的关键部分。在居住区园林景观建设理论日渐成熟的今天,人们对它的评价却还处在起步的阶
本研究以社会主义新农村建设和全面实现小康社会为背景,通过教育对经济发展关系的相关理论回顾与借鉴,分析了农民受教育现状及其对农民收入的作用机理,并以扬州市为个案,通过
目的探讨量子透射疗法与降纤酶联合治疗高粘血症的临床效果.方法应用量子透射和降纤酶同时治疗高粘血症病人,并进行自身对照比较.结果治疗前后患者的红细胞压积、纤维蛋白原
新时期推进反腐败体系建设,必须坚持和贯彻刑事法治的底线思维,树立刑事法治原则,推进反腐败法治体系改革,在反腐败中贯彻依法治国原则,进一步深化和加强反腐败工作体系的长
灌浆材料中加入碳纤维,可显著改善材料固结体的力学性能。通过正交试验,求得普通水泥浆液中碳纤维的最优掺量。在此基础上,添加助剂,配制出的浆液,流动性能较好,结石体抗压强