基于CNN和双向LSTM的中文分词与词性标注一体化模型

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:zxd19811219
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文分词与词性标注是中文自然语言处理中两个最为基础的部分,其精度与性能对后续诸多任务都具有至关重要的影响。经过几十年的研究和发展,中文分词与词性标注的解决方法由早期基于词典与规则的简单匹配算法,发展到基于各种统计机器学习模型的方法,再到近几年流行的深度学习方法。考虑到先分词后词性标注的流水线模型的不足,本文使用基于深度学习的中文分词与词性标注一体化模型在一个步骤中同时处理中文分词与词性标注两个任务,主要工作包含如下三个部分:1.基于BiRNN-CRF(bidirectional recurrent neural network-conditional random fields)序列标注模型,完成中文分词与词性标注工作。具体而言,基于序列标注的思想,将字向量作为模型的底层输入;中间层采用带有长短期记忆单元的循环神经网络对句子信息进行建模,充分捕捉句子的上下文依赖关系,自动提取有效特征;输出层则使用条件随机场对标签之间的依赖关系进行刻画,提高标签预测精度。2.在BiRNN-CRF框架的基础之上,引入神经网络语言模型作为辅助任务,与中文分词与词性标注任务进行联合训练;并进一步引入Highway Network作为额外的非线性变换层,将循环神经网络的输出映射到不同的特征空间,使得两个任务的输出目标得以调和。3.进一步优化模型的输入与输出。输入方面,使用卷积神经网络在输入字向量进入循环神经网络之前进行额外的特征抽取,起到模拟传统n-gram特征的作用;输出方面,通过对中文字频的分布规律进行梳理总结,提出一种新型辅助损失函数,显式指导模型学习高频字与低频字之间的差别,进一步提高模型标注精度。最后,本文对模型进行了详细的实验分析并开发实现了一个简单易用的中文分词与词性标注原型系统。纵向实验结果表明,本文所提出的各个模块对于基础BiRNN-CRF模型的联合标注精度均有一定提升,在CTB5和CTB7两个数据集上的联合标注F1值分别达到94.98%和91.52%。与其它相关研究的横向对比实验结果表明,对于联合标注任务,本文模型在CTB5和CTB7数据集上的F1值比当前最好结果分别提高了0.92%和0.98%;对于单独的分词任务,在PKU和MSR数据集上,本文模型与当前最好结果相当,但是比同样基于字序列标注的模型F1值分别提高了0.93%和1.84%。此外,本文还将一体化模型与流水线模型进行了组合对比,结果表明在CTB5和CTB7两个数据集上一体化模型的联合标注F1值比流水线模型分别高出3.26%与2.16%,有力证明了一体化模型的有效性。
其他文献
刀耕火种农业是热带山区古老而广泛存在且又备受争议的传统自给农业形式,是一种复杂、动态的农林复合系统。2008年以来,刀耕火种农业已成为联合国“减少砍伐森林和森林退化导致的温室气体排放”(REDD/2008)计划的重要议题,其发展状况与联合国多个可持续发展目标(SDGs)密切相关。刀耕火种农业引起的碳排放、碳循环等问题已成为学界关注焦点并在政策层面得到高度重视。针对刀耕火种农业确切分布、规模、时空特
智能厕所是智能车站建设的重要组成部分.为响应习主席提出的"厕所革命",中国铁道科学研究院客设项目组研发车站公共厕所智能引导系统.此系统通过采集模块实时获取厕位占用信
对国家以及天津市的公共体育设施建设背景进行分析,全民健身已上升至国家战略,统筹公共体育设施规划布局迫在眉睫,人民群众对公共体育设施的需求进入了全民参与、丰富多样的
简介VLOC艉轴高温情形、原因分析及其相应应对措施.