【摘 要】
:
命名实体识别是自然语言处理的一项基础任务,也是机器翻译、智能问答、知识图谱等相关领域的底层技术。深度学习技术因其自动高效的特征表达与分类能力在命名实体识别任务中已取得巨大的进展。现有的深度学习命名实体识别方法大多为有监督的训练方法,没有利用无标注数据来增强模型的泛化能力。因此,本文针对半监督的命名实体识别方法进行了研究。论文主要工作内容如下:本文首先对中文和外文命名实体识别方法的研究现状进行了调研
论文部分内容阅读
命名实体识别是自然语言处理的一项基础任务,也是机器翻译、智能问答、知识图谱等相关领域的底层技术。深度学习技术因其自动高效的特征表达与分类能力在命名实体识别任务中已取得巨大的进展。现有的深度学习命名实体识别方法大多为有监督的训练方法,没有利用无标注数据来增强模型的泛化能力。因此,本文针对半监督的命名实体识别方法进行了研究。论文主要工作内容如下:本文首先对中文和外文命名实体识别方法的研究现状进行了调研,分析和总结了基于统计和基于深度学习的命名实体识别方法原理,在总结了各方法优缺点的基础上,提出了一种半监督的命名实体识别方法。利用大量的无标注数据创建与有标注数据的相似句来约束训练语料的标注序列,减少了模型对有标注数据的依赖。实验表明,创建的相似句可以有效的纠正训练语料的标注序列。该模型在SIGHAN Bakeoff MSRA中文命名实体识别数据集中F1值取得了92.13%,与基线模型相比提高了0.41%。其次,为了使长短时记忆网络更精确的提取句子较远的特征信息,提出了一种融合顺序遗忘编码结合循环神经网络的命名实体识别算法。将顺序遗忘编码的静态编码方式与循环神经网络的动态遗忘方式相结合,增强了模型对句子特征的提取能力。将提出的模型结构分别用于英文和中文两种语言的数据集中,F1值分别取得了91.30%,91.65%,有效的验证了该方法的通用性及有效性。综上所述,本文利用深度学习方法分别以半监督和有监督的方式对命名实体识别方法进行了研究和改进,分别以加入外部数据和修改模型内部结构的方式进一步提升了模型效果,实验结果验证了所提出方法的有效性。
其他文献
传统观点认为隐喻是一种特殊的修辞手段,对其研究停留在词语层次上。莱考夫和约翰逊提出的概念隐喻理论则宣告了隐喻研究的认知转向。根据莱考夫和约翰逊的观点,隐喻是无处不
本文旨在通过田野调查,对汉语邵阳方言的声调现象做一个系统地语音描写。并在此基础上,借助非线性音系学理论对相关声调现象做出音系学解释。邵阳方言属于湘语娄邵片,是老湘
本文以江苏古籍出版社本《敦煌社邑文害辑校》一书为参照,窮盡扫描所含敦煌文书写卷,据纪年、书写清晰度、书写内容等选择研究文本144件,封所辑缘的一千多个俗字造行研究。研
本文运用结构主义语言学、系统功能语言学、认知语言学等理论,分析了“管他呢”的特点、评述对象、功能,及与其他意义相近的表达式之间的差异。本文的内容主要包括以下七个部
互动教学是指在教学过程中充分发挥教师和学生的主观能动性,形成师生间相互交流和相互促进的一种教学方法。该教学法已普遍应用于我国的对外汉语教学中。但笔者在教学实践中
要想达到预期的教学目的,就必须实施及时有效的大学教学管理。只有具备完善的大学教学管理,大学教学才更具实效性,继而从中获取更多的益处。大学教学管理的发展应顺应时代的
随着中国“丝绸之路”与蒙古国“草原之路”的成功对接,中国和蒙古国在政治、经济、文化等各领域展开合作并且不断深化。在蒙古国国内,越来越多的人愿意选择学习汉语,并且通
对企业而言,加强民主评议监督建设是贯彻党关于企业群众建设的重要举措,是落实党的十八大精神和"八项规定,六项禁令"的具体体现。《企业职工代表大会条例》职权明确规定:企业
近年来,第二语言词汇习得研究越来越受到学者们的重视,而汉语作为第二语言习得的领域方面,词汇习得研究也引发了越来越多的关注。国外第二语言词汇习得研究开始于20世纪初,路
一般认为,后现代主义思潮起源于19世纪50年代,到20世纪70年代得到了更广泛的传播,它的主要特点就是反对、否定或力求超越各种本质、规律、普遍以及确定,肯定事物的多元性、不确定