论文部分内容阅读
中文分词是计算机进行汉语文本分析的关键技术,分词算法的好坏直接影响中文分析系统的实用性,搜索引擎是中文分词技术的重要应用之一。如何用更短的时间得到更高的分词精确度是目前的研究重点和热点。基于字符串匹配的分词算法是当前使用最为广泛的中文分词算法,而最大匹配算法是最常用的基于字符串匹配的分词算法。本文通过分析最大匹配算法的不足,结合高效的双字哈希词典机制,提出基于双字哈希词长分组词典结构的正向最大匹配改进算法,分词性能明显提高;然后借用匹配过程进行歧义处理,减少错误切分;之后使用改进算法思想重新设计Lucene中的中文文本分析模块,优化搜索引擎系统。实验表明本文提出的基于双字哈希词长分组词典结构的正向最大匹配改进算法比最大匹配算法有较大性能提升。本文所做工作总结如下:1.通过对最大匹配算法的研究,分析最大匹配算法存在的3个问题,并针对每个问题提出解决办法。2.根据最大匹配算法不足改进算法流程,提高分词性能,并针对改进算法的需求设计双字哈希词长分组的词典机制,提出基于双字哈希词长分组词典结构的正向最大匹配改进算法。该算法对于每一次匹配都能动态选择合适匹配初始位置和匹配长度,并能快速的对词典进行查找,减少不必要的匹配消耗,无论从分词速度还是精确度上都较传统算法有了一定提升。3.根据改进算法的匹配过程,结合最大匹配算法+回退一字法算法思想,有效消除部分交集型歧义,使分词结果更加准确。4.通过对搜索引擎知识和Lucene开发包的学习,基于Lucene搭建简单的搜索引擎系统。根据改进算法重新设计Lucene中文分析模块,提高了基于Lucene的搜索引擎系统应用性能。5.对基于双字哈希词长分组词典结构的正向最大匹配改进算法进行实验评估。首先使用不同词典机制对相同语料进行分词,验证本文选取的双字哈希词典性能;然后通过使用本文改进算法及正向最大匹配算法对相同语料分别进行分词,比较结果。实验结果表明,本文提出算法在分词速度及分词精度上都优于正向最大匹配算法,达到了改进目的。