论文部分内容阅读
汉语分词作为中文自然语言处理研究的基础性工作,在中文信息处理中扮演着重要的角色。随着中文信息处理的发展,特定领域汉语分词的需求增大。但是由于特定领域分词标注语料匮乏,使得现有的基于通用领域的分词系统对特定领域文本进行分词时会造成分词精度下降,原因在于:(1)特定领域专业术语切分存在多样性,缺少分词标准来规范,从而影响分词精度;(2)特定领域与通用领域词汇结合时所产生的"跨界"问题,也就是交集型歧义切分问题。现有分词系统并不能对此问题提供良好的解决方案,从而造成分词精度下降。针对以上两个问题,本文研究特定领域分词标准制定的方法,规范特定领域专业术语切分方式,标注特定领域语料,提高特定领域分词精度;提出融合少量标注数据的统计方法来解决交集性歧义切分问题,从而提高分词精度。本文主要包括以下两方面工作:(1)针对特定领域分词标准缺乏的问题,本文提出基于统计特征的决策树分类方法,利用已有的新闻领域分词标准中的词语统计特征,包括AV值、边界熵和字符串频度值特征,并结合特定领域词语特征混合训练分类模型,用于专业术语判定,制定特定领域汉语分词标准。在制定的分词标准指导下,本文对科技领域语料自动标注,获得大规模标注语料。实验结果显示,边界熵、AV值和字符串频度值统计特征在决策树分类模型中获得最好结果,在此分词标注指导下构建的自动标注系统获得分词精度的提升。(2)特定领域文本含有大量领域特有专业术语,使得术语与通用词语相邻时位于各自边界的汉字容易成词,为分词边界切分引入更多不确定性,导致分词精度下降,被称为交集型歧义切分问题。针对交集型歧义切分问题,本文提出基于主动学习的局部数据标注方法,实现模型的领域自适应。其基本思想是利用原模型对特定领域文本分词,选取通用词语标注错误的语句,只对句子中通用词语错误的局部字串进行标注,然后将标注数据并入训练语料重新训练模型,实现原模型向特定领域的适应。本文采用基于CRFs的分词模型。实验结果表明,本文所提方法通过少量的人工标注数据有效的解决了交集型歧义切分问题。综上所述,本文围绕特定领域分词精度下降的问题,对特定领域分词标准制定方法进行了深入研究,提出了基于统计特征的决策树分类模型,填补了特定领域分词标准的空缺,并针对特定领域交集型歧义切分问题,提出了基于主动学习的局部标注方法。实验结果验证了这些方法的有效性。