论文部分内容阅读
如何从海量的信息中获取有用的信息,如何从迅速爆炸的信息中及时获取最新信息,这是检索技术目前面临的挑战。全文检索是现代信息检索技术的一个非常重要的分支,是为解决信息的高效获取问题而应运而生,它是以电子文本数据为主要处理对象,基于全文索引,使用自然语言进行检索的技术。 存在两种基本的索引库结构,即基于“字表”的索引库和基于“词表”的索引库。在对中文全文检索的有关技术,尤其是对中文信息处理的基础技术:“中文分词技术”进行了较为深入的研究后,本文提出了一种基于粒子群优化算法(PSO)的适用于构建全文索引的分词方案。该分词方案结合了“字表法”和“词表法”的优点,在减少信息冗余的前提下得到准确的检索结果。 粒子群优化算法自提出以来,由于它的计算快速性和算法本身的易实现性,引起了国际上相关领域众多学者的关注和研究,已在函数优化、神经网络训练、模糊系统控制等领域取得长足的发展。本文是粒子群算法在求解实际问题中的应用。受粒子群算法解决旅行商问题的启发,本文把中文分词问题转化成了求解最短路径问题,并给出了其完整的建模和求解过程。精选了128条具有典型交集型歧义字段的切分例句作为测试用例,在与中科院计算所汉语词法分析系统ICTCLAS的实验结果对比中,表明该分词方案是适合于全文检索系统的分词方案。 根据本文提出的分词算法,从实际问题出发,把该分词算法应用于实际的FAQ(常见问题解答)全文检索系统的设计中。采用面向对象和模型驱动的程序设计方法,利用开源项目Lucene建立和实现全文本索引库,文中给出了系统