论文部分内容阅读
中文分词与词性标注是中文自然语言处理中两个最为基础的部分,其精度与性能对后续诸多任务都具有至关重要的影响。经过几十年的研究和发展,中文分词与词性标注的解决方法由早期基于词典与规则的简单匹配算法,发展到基于各种统计机器学习模型的方法,再到近几年流行的深度学习方法。考虑到先分词后词性标注的流水线模型的不足,本文使用基于深度学习的中文分词与词性标注一体化模型在一个步骤中同时处理中文分词与词性标注两个任务,主要工作包含如下三个部分:1.基于BiRNN-CRF(bidirectional recurrent neural network-conditional random fields)序列标注模型,完成中文分词与词性标注工作。具体而言,基于序列标注的思想,将字向量作为模型的底层输入;中间层采用带有长短期记忆单元的循环神经网络对句子信息进行建模,充分捕捉句子的上下文依赖关系,自动提取有效特征;输出层则使用条件随机场对标签之间的依赖关系进行刻画,提高标签预测精度。2.在BiRNN-CRF框架的基础之上,引入神经网络语言模型作为辅助任务,与中文分词与词性标注任务进行联合训练;并进一步引入Highway Network作为额外的非线性变换层,将循环神经网络的输出映射到不同的特征空间,使得两个任务的输出目标得以调和。3.进一步优化模型的输入与输出。输入方面,使用卷积神经网络在输入字向量进入循环神经网络之前进行额外的特征抽取,起到模拟传统n-gram特征的作用;输出方面,通过对中文字频的分布规律进行梳理总结,提出一种新型辅助损失函数,显式指导模型学习高频字与低频字之间的差别,进一步提高模型标注精度。最后,本文对模型进行了详细的实验分析并开发实现了一个简单易用的中文分词与词性标注原型系统。纵向实验结果表明,本文所提出的各个模块对于基础BiRNN-CRF模型的联合标注精度均有一定提升,在CTB5和CTB7两个数据集上的联合标注F1值分别达到94.98%和91.52%。与其它相关研究的横向对比实验结果表明,对于联合标注任务,本文模型在CTB5和CTB7数据集上的F1值比当前最好结果分别提高了0.92%和0.98%;对于单独的分词任务,在PKU和MSR数据集上,本文模型与当前最好结果相当,但是比同样基于字序列标注的模型F1值分别提高了0.93%和1.84%。此外,本文还将一体化模型与流水线模型进行了组合对比,结果表明在CTB5和CTB7两个数据集上一体化模型的联合标注F1值比流水线模型分别高出3.26%与2.16%,有力证明了一体化模型的有效性。