中文分词技术在搜索引擎中的研究与应用

来源 :青岛科技大学 | 被引量 : 15次 | 上传用户:weiwei00414
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文分词是计算机进行汉语文本分析的关键技术,分词算法的好坏直接影响中文分析系统的实用性,搜索引擎是中文分词技术的重要应用之一。如何用更短的时间得到更高的分词精确度是目前的研究重点和热点。基于字符串匹配的分词算法是当前使用最为广泛的中文分词算法,而最大匹配算法是最常用的基于字符串匹配的分词算法。本文通过分析最大匹配算法的不足,结合高效的双字哈希词典机制,提出基于双字哈希词长分组词典结构的正向最大匹配改进算法,分词性能明显提高;然后借用匹配过程进行歧义处理,减少错误切分;之后使用改进算法思想重新设计Lucene中的中文文本分析模块,优化搜索引擎系统。实验表明本文提出的基于双字哈希词长分组词典结构的正向最大匹配改进算法比最大匹配算法有较大性能提升。本文所做工作总结如下:1.通过对最大匹配算法的研究,分析最大匹配算法存在的3个问题,并针对每个问题提出解决办法。2.根据最大匹配算法不足改进算法流程,提高分词性能,并针对改进算法的需求设计双字哈希词长分组的词典机制,提出基于双字哈希词长分组词典结构的正向最大匹配改进算法。该算法对于每一次匹配都能动态选择合适匹配初始位置和匹配长度,并能快速的对词典进行查找,减少不必要的匹配消耗,无论从分词速度还是精确度上都较传统算法有了一定提升。3.根据改进算法的匹配过程,结合最大匹配算法+回退一字法算法思想,有效消除部分交集型歧义,使分词结果更加准确。4.通过对搜索引擎知识和Lucene开发包的学习,基于Lucene搭建简单的搜索引擎系统。根据改进算法重新设计Lucene中文分析模块,提高了基于Lucene的搜索引擎系统应用性能。5.对基于双字哈希词长分组词典结构的正向最大匹配改进算法进行实验评估。首先使用不同词典机制对相同语料进行分词,验证本文选取的双字哈希词典性能;然后通过使用本文改进算法及正向最大匹配算法对相同语料分别进行分词,比较结果。实验结果表明,本文提出算法在分词速度及分词精度上都优于正向最大匹配算法,达到了改进目的。
其他文献
近年来,旅游业蓬勃发展,居民旅游消费逐年攀升,乘坐飞机出行已经成为一种较为普遍的出行方式。与此同时,民航业的信息化程度大大提高,大量的旅客个人信息及其历史出行记录信
由于半结构化数据缺乏类型信息、结构隐含或不规则,因此半结构化数据的存储与管理是一个十分重要的研究课题。为此,本文提出一种半结构化数据管理的动态建模技术,可针对半结
人脸渐变技术作为计算机动画领域的一个重要实用技术,可以广泛应用于电影制作、游戏娱乐和广告制作等领域。人脸渐变技术是人脸特征定义及获取技术、图像变形技术和渐变中间
存储已成为以数据为中心的信息时代核心之一。数据存储已成为互联网热潮之后的又一次新的技术浪潮,它将网络带入了以数据为中心的时代。基于P2P的分布式存储系统通过把闲散的
随着我国民航信息化的发展,旅客人次和航班数量的不断增加,民航信息数据呈现出爆炸式增长的趋势,与此相对的是我国民航面向公众、全行业单位与部门的数据共享和信息服务不适