论文部分内容阅读
随着Internet技术的飞速发展,互联网络上的信息量正以几何级数的速度飞速增长,怎样在这浩如烟海的网络信息中找到用户需要的信息已经成为Internet上一个非常重要的研究课题。Google、Baidu等通用型搜索引擎系统在检索专业内容时,用户往往找不到他们真正需要的内容。本文旨在研究开发面向某一行业的搜索引擎以满足特定领域信息检索的需求。 本课题是在与广西东糖集团合作研究开发的“甲糖煮糖自动控制系统”的基础上展开的深入研究,在Java的全文索引引擎工具包Lucene基础上,通过对Lucene设计原理进行分析,设计开发了一个面向糖业的专业搜索引擎。提出面向糖业的专业搜索引擎的研究思路,对开源项目Lucene的实现机制及自带的中文分词算法和网页排序算法进行了深入研究,通过分析Lucene的系统结构、数据流和索引文件格式,指出Lucene的中文分词器功能太弱、网页排序算法性能不高等缺点,对Lucene的中文分词技术和网页排序算法进行扩展与优化,顺利地开发运用到面向糖业的专业搜索引擎中。 在对Lucene的扩展方面,主要作了以下两方面的研究工作: (1)中文分词算法的重新设计。为进一步提高分词的切分速度,充分发挥现代计算机内存空间大的优势,重新设计了分词词典结构,并在该分词词典结构上设计实现多次Hash中文分词算法,使其不但结构支持首字Hash查找,而且还支持对剩余词进行Hash查找。通过理论分析得出该算法时间复杂度比同类算法的时间复杂度相对要低,并且在系统实现运行中可发现该算法有较好的分词效果。