论文部分内容阅读
随着信息化时代的不断进步和发展,人们获取信息的手段也在不断的发生着变化,从原始的手工查找到现在的计算机搜索引擎。计算机技术的发展极大的促进了信息检索技术的进步,搜索引擎作为信息检索的主要手段,其发展受到越来越多研究机构和个人的重视。搜索引擎作为检索工具,其发展给我们的生活带来了前所未有的方便和快捷。当人类利用google、baidu等搜索引擎进行信息的查询和检索时,它们是如何知道我们最想要的结果是什么,有多少结果是我们需要的? 汉语言的博大精深使它不能像英语那样容易让人理解。当利用计算机处理汉语言时,输入计算机的仅仅是一连串的字符序列,除了标点符号就没有其他的分割标志,而英语却有一个明显的分割标志—空格,这使汉语分词遇到了一些在英语中没有的问题,这些问题都集中体现在中文分词技术中,其中以歧义词的切分和未登录词的识别为代表。 本文前面主要从理论上分析和介绍了目前的各种汉语自动分词方法,以及搜索引擎技术的相关情况。对各种分词方法的技术特点进行了阐述,对自动分词发展现状和趋势作了概括性的总结。讨论了中文分词中存在的两个主要问题—歧义词的切分和未登录词的识别,简单介绍了中文分词和信息检索的关系。 目前的分词算法主要有基于词典和无词典两大类,这两种算法各有优缺点。本文的分词系统是基于词典的,词典作为整个分词系统的核心,它的好坏直接影响到分词系统的效率和准确率,所以要从时间和空间多个方面考虑分词词典的组织结构。本文的主要工作如下: 1、简要的介绍了文章的研究背景和意义以及中文搜索引擎的相关情况,深入的研究了目前国内中文自动分词发展情况和中文自动分词面临的问题。 2、介绍了目前常用的几种词典算法结构,根据已有的词典算法并结合前人的研究工作,对基于双数组Trie树词典算法进行了改进,利用Lucene全文索引擎工具包的切分工具对原始语料进行初切分,并结合统计方法在切分过程中对歧义切分和未登录词识别进行了相应的处理,最后实现本文的分词系统CSSD。 3、把改进后的词典算法和目前现有的几种词典算法从空间利用率和查找速度进行了比较,并把本文的CSSD分词系统和中科院ICTCLAS分词系统以及前向最大匹配算法FMM从切分速度、切分准确率和未登录词识别三个方面进行了比较,结果显示,CSSD分词系统能够满足面向大规模信息检索的要求。最后,对全文的工作进行了总结,并提出进一步的研究工作。