论文部分内容阅读
分词是指将自然语言中的字符串正确切分为词语。它是自然语言处理过程中首要的技术环节,其重要性不言而喻。目前的中文分词技术主要针对中文文本进行分词。而对于日益增多的中英文混合文本,采用传统的基于中文分词的技术,分词效果不理想,有必要研究中英文混合分词技术。论文首先介绍了四种基本的分词算法,并探讨了分词的关键问题及解决办法。然后介绍了分词系统的评价体系,然后在原有的中文分词系统评价体系基础上,提出了两条适用于中英文混合分词系统的评价指标。其次论文分别通过几组实验的方法确定中英文混合分词模型的技术和策略。一是对分词词典机制和基于字符串匹配的分词算法进行了对比实验,在此基础上提出了基于字符串匹配的中英文混合分词解决思路,为建立中英文混合分词模型打下基础。二是采用整词二分、TRIE索引树、逐字二分、双字哈希四种词典机制进行对比实验,最终选定双字哈希索引词典机制作为分词模型的词典机制。三是分别采用正向最大匹配算法、逆向最大匹配算法进行中文、中英文混合文本的对比实验,从而确定选用逆向最大匹配法为分词模型的分词算法。四是将逆向最大匹配算法进行改进,将待处理字符串的长度和以它的双字为首的哈希词典的最大词长进行比较,从而确定逆向最大匹配过程中的最大词长。这样的做法能够有效地减少分词过程中的匹配次数,从而达到提高分词效率的目的。论文中还针对分词研究中的歧义处理、未登录词的识别等关键问题展开分析和讨论。提出基于长词,词频与单字函数相结合的消歧算法,通过对人民日报分词语料库进行数据实验,歧义字段的消解能达到96.50%左右的正确率。在未登录词的识别中,运用统计方法对中文姓名进行了有效的识别。论文基于以上思路最终建立了一个基于字符串匹配的中英文混合分词模型,该模型实现了对词典的加载以及中英文混合分词,并为分词算法的扩展预留接口。根据分词系统评价指标对本模型进行综合评价,各项指标表现良好,具有一定的参考价值。