论文部分内容阅读
中文分词是中文信息处理领域的基础课题,也是中文信息处理发展的瓶颈之一,其中对歧义字段的处理是影响分词精度的关键,国内外许多研究人员在这一领域都进行了深入的研究,但就目前现状来看,仍不能满足实际应用的需要。
本文针对分词中的三个方面——词典结构、歧义处理、地名识别——进行了深入的研究。在词典结构方面,通过对词典中各个词语进行统计,最终形成以词首为唯一索引,与之可能成词的字符有序无重复索引的网格数据结构。通过逐级索引的结构,可以大大提高遍历词典的速度;在歧义处理方面,对N-Best最优路径和Viterbi算法的模型进行深入研究并结合本文的具体应用作出相应改进,主要体现在改进了Viterbi算法对全路径的逐一计算,而是先通过前向最大匹配与逆向最大匹配对待分词文本进行预处理并获得粗分结果集,其次,利用Viterbi算法对此粗分结果集进行词频信息统计,降低了算法复杂度并提高了算法效率,同时,根据Viterbi计算出的最优路径达到了消除歧义的目的;在地名识别方面,由于地名识别依据多个地名词典进行匹配,因此本文所设计的中文分词系统,在对待分词文本进行粗分处理时,标记了可能为地名的词语,而不是对所有词语均启动地名识别模块,从而在一定程度上使得地名处理与分词速率达到一个比较理想的均衡状态;
在系统测试阶段,本文针对普通文本、地名文本、综合文本分别进行了分词正确率测试与分词速率测试,其中普通文本的分词平均正确率与分词平均速率分别为95.6%和1234.6k/s,地名文本的分词平均正确率与分词平均速率分别为92.0%和711.8k/s,综合文本的分词平均正确率与分词平均速率分别为92.8%和935.9k/s。
通过以上测试结果,可以看出本文对词典结构的设计、消除歧义与地名识别的研究、以及Viterbi算法应用于局部路径的设计符合预定的分词目标,达到了比较理想的分词效果。