论文部分内容阅读
全文索引技术是一项用来检索存储在计算机系统中的文本信息的技术。利用全文索引技术,可以极大的提高从海量的信息中检索所需要的信息的效率。全文索引技术在过去十几年中发展迅猛。到目前为止,不仅出现了很多优秀的商用的互联网搜索引擎,而且还当有很多成熟的开源或不开源的全文索引工具包免费供我们使用。其中最著名的要数Apache的Lucene和Microsoft的Indexing Service。微软Indexing Service是Windows NT平台上的提供的一项基础服务。索引服务能够从保存在计算机硬盘上的文件中抽取内容,然后建立索引结构从而加快查询的效率和速度。通过自定义的Filter,索引服务可以处理任何文件而不管其具体的格式。在本篇论文中,我们将利用Windows索引服务搭建一个分布式的局域网信息检索系统。该系统主要由三部分组成,分别为Server主机程序、索引服务管理程序和本地索引服务查询程序。Server主机程序主要的功能是对用户屏蔽局域网中的多个索引主机。从用户的角度来看,整个局域网的待索引数据都放在Server主机上。索引服务管理程序主要负责待索引数据的添加和删除。本地索引服务查询程序主要负责本地索引服务的查询。整个系统要能够快速的响应用户的查询请求,给用户较好的查询体验。另外,系统还有一定的容错能力,能够处理一些常见的异常。Lucene是一个功能强大的由Java实现的搜索工具包。使用Lucene可以很方便的为应用添加搜索功能。最近几年,Lucene变得越来越流行了。Lucene的易用性和强大的功能使其成为网站站内搜索和个人电脑桌面搜索工具的首选搜索内核。在本篇论文中,我们将利用Lucene实现一个简单的文本归类程序。该文本归类程序利用Lucene能够存储文本向量的功能,将每个训练文档转化成文档向量。然后使用基于空间向量模型的文本分类方法将文档归类。通过这个程序可以了解和学习到文本分类的基本方法。