论文部分内容阅读
本文首先对现有中文分词相关理论和方法以及存在的主要问题进行了深入分析,重点研究了统计模型在自然语言处理领域中的应用。在此基础上针对农业垂直搜索领域的特殊需求及应用环境,提出了基于词典和统计语言模型的中文分词方法。该方法通过改进的全切分算法建立分词矩阵,实现了所有类型歧义的识别,生成粗分结果集,然后利用N元语法模型从中选择概率最大的切分结果,经过基于最大熵模型的词位标注方法识别未登录词后得出最终的分词结果,最后给出了基于此方法的中文分词原型系统的设计与实现。本文提出的分词方法在三个方面进行了改进,首先是通过大规模语料库识别具有切分标志意义的特征字建立特征字库,通过特征字对经过预处理的语句集进行初步切分,有效降低了粗分阶段的字串长度。其次采用改进的全切分模型,通过字位标注建立分词矩阵,能够有效检测歧义边界,识别所有类型的歧义,并筛选出包含歧义的切分形式,通过bigram模型进行概率计算,选择最优切分形式。最后,建立农业专业术语、中文人名、中文机构名专业词库,统计构词规律,选择合适的特征模板,生成样本数据,利用词位标注的思想,通过最大熵模型实现对未登录词的识别。本文设计了三个方面的实验,对改进的全切分算法和传统全切分算法的性能进行比较;在4词位标注集上选择不同的上下文窗口宽度对基于最大熵模型的未登录词识别率的比较;将该原型系统与ICTCLAS、Paoding以及IKAnalyzer进行综合性能的比较。实验结果表明,使用本文提出的分词模型的原型系统召回率达到93.6%,准确率达到91.7%,F1测度值为92.6%,未登录词的召回率为77.2%,未登录词准确率为90.1%。