论文部分内容阅读
全文检索是指计算机索引程序通过扫描文章中的每个词进行检索。该检索是对文档中的每一个词建立一个索引,指明该词在文章中出现的次数和位置,当用户查询时,检索程序就根据事先建立的索引进行检索,并将结果反馈给用户的检索方式。随着信息时代的到来,各种信息资源急剧增长,人们越来越多地关注如何快速有效地从海量的信息资源中,抽取出潜在的、有价值的信息,使之有效地在管理和决策中发挥作用。同时,作为某单位信息情报的基础,各种应用文档、电子文档、数字文书、信息数据库以及其它的各类数字化信息载体正不断的增加,如何安全、快速地从上百万,上千万甚至更多的情报信息中检索出准确、有效、有价值的情报信息,已经成为当前该单位信息化建设中的重要任务。然而,作为信息处理技术中最基本的信息检索技术却在该单位没有得到全面的应用,信息检索技术的研究和应用也还停留在一个比较落后的阶段,如何使先进的全文信息检索技术应用到这些单位的信息化建设中,已经越来越得到了各级的重视。本文分析了当前信息检索领域的研究及应用现状,研究了全文检索系统的特点、主要算法、全文检索的相关理论和全文检索的发展趋势及技术热点。对流行的开源全文检索工具包Lucene.Net的体系架构和主要功能模块进行了剖析,对Lucene主要索引算法:增量算法、归并算法和查找算法原理进行了解析。同时,结合某单位信息化建设的实际,在基于Lucene.Net工具包的基础上,分析并设计了适合该单位信息化建设的多数据源全文检索系统。针对该单位信息情报资源对于信息安全的特殊要求,提出了基于用户安全权限的全文检索方式,有效控制用户访问检索系统的安全权限。通过对多数据源(如doc、pdf、html、数据库..)及插件技术的研究,提出基于接口及插件技术的开发模式,很好的解决了对未知文体格式文档及新型数据库索引的扩展问题。通过对本系统进行的检索性能测试和应用实验,归纳出了本系统的特点,验证了全文检索系统的各项指标,达到了该单位信息检索系统的应用标准。