基于双向LSTM的命名实体识别的研究及应用

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:didos_jo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
命名实体识别(NER,Named Entity Recognition)是自然语言处理的热点方向之一,目的是识别文本中的命名实体,并将其归纳到不同的实体类型中。命名实体识别是自然语言处理的基础任务,其结果能有效应用于信息抽取、问答系统、文本分类等各项后续任务。命名实体识别的准确度将直接影响自然语言处理中后续工作的表现。随着深度学习的发展,基于长短期记忆网络(LSTM,Long Short-term Memory)及其变种网络在命名实体识别任务中取得了不错的成绩,但命名实体识别依然面临不少挑战:大数据时代,命名实体的数量不断增加,不可在字典中穷尽;数据量增大的同时导致类不平衡问题越加严重;基于深度学习的方法对计算资源和内存资源的消耗日趋增大;不同领域命名实体具有各自的规律性;中文语境中词的界定比较模糊等。本论文针对以上问题,主要工作任务如下:(一)传统的命名实体识别解决一词多义的能力较弱,学习到的词嵌入不能有效代表相同词在不同上下文语境中的信息,而基于深度学习的合并词嵌入模型则会占用大量的计算资源和内存资源。针对这些问题,我们提出了一种新的合并的上下文词嵌入模型,通过合并相同词在不同语境中的词嵌入,从而保留词在不同文本语境中的特征。同时介绍了我们自定义的中文商户名称数据集。在标准双向长短期记忆网络(Bi-LSTM)上的实验结果表明,不论是在公开的英文数据集或者自定义的中文数据集上,该方法都能有效解决存在的问题,并保证了识别的准确率。(二)在命名实体识别模型的训练过程中,训练集的类不均衡问题严重影响了模型的总体结果,导致模型对多数类的识别准确率更高,对少数类的识别准确率较低。针对这一问题,我们从数据集和损失函数两方面入手,首先采用命名实体替换增大数据集中小样本的占比,然后定义了一个重点关注于正样本的损失函数,通过两种方法减轻类不均衡问题对模型的总体影响。在标准双向长短期记忆网络(Bi-LSTM)上的实验结果表明,不论是在公开的英文数据集或者自定义的中文数据集上,两种方法都有效缓解了类不均衡对模型训练结果的影响,并有效提升小样本的识别准确率。
其他文献
三维块匹配联合滤波(Block-matching and 3D filtering,BM3D)作为目前最好的图像去噪算法之一,能够有效地去除图像中的噪声,但是仍然存在着丢失图像细节信息、对高噪声图像(σ≥40)去噪效果差、算法时间复杂度高等问题。图像去噪的目的是在去除噪声的同时,尽可能地保持图像有用信息。由于图像的边缘、纹理等细节信息和噪声,都主要集中在图像信号的高频部分,因此图像去噪的主要目标就
我国高速列车的发展处于世界领先地位,作为动车组旋转机械关键部件的主要组成部分,齿轮箱运行时的健康状况至关重要,一旦发生故障,将产生不可估量的费用损失,尽早进行故障诊断与分析,降低维修成本并且减少事故的发生,具有一定的工程意义。随着人工智能,深度学习的发展,基于数据驱动的方法成为故障诊断的主流技术,传统的方法是对振动信号进行降噪处理,时频分析及特征提取,最后人工对故障进行特征匹配,判断旋转机械是否出
车标识别为智能交通系统提供技术支撑,在智能交通业务应用中高效、准确识别车辆起着重要的作用。实际生产环境下的车标图像存在光照不均、车标倾斜,污损及复杂背景等影响因素,车标识别一直具有很大的挑战。传统的车标识别算法,主要以手工设计特征为主,缺点是:算法抗干扰能力有限,鲁棒性不高,不能准确有效的进行车标定位和分类。与手工设计特征相比,基于神经网络的车别识别算法在解决复杂环境的车标定位和车标识别问题具有极
口语理解作为任务型对话系统的第一个流程,在对话系统领域中具有重要的研究意义。目前,对于口语理解任务的研究多基于深度学习方法,在每个对话领域都需要大量的标注对话数据来支撑模型的训练,因此带来相当大的数据成本。而针对数据问题被提出的小样本学习目前还处于初级阶段,主要应用在图像分类任务中。本文将小样本学习方法应用于口语理解任务,对于口语理解的两个子任务——意图识别和语义槽填充分别提出了适用于小样本数据的
随着互联网的快速发展以及人们对教育需求的不断增长,2012年出现了大规模在线开放课程这种新型的在线学习模式。伴随着大规模在线课程平台的快速发展,任何人均可上传课程到平台上来,课程数量不断增加且教学内容存在大量冗余,出现类似电商平台的信息过载问题;同时,由于在线开放课程平台缺少清晰的学习架构引导用户制定学习策略,用户难以从海量数据中选择适合自己的课程。因此,本文旨在利用推荐系统,分析用户的历史行为,
面向电子病历的临床术语标准化是将电子病历中的临床诊断实体对应到标准知识库中的标准实体。临床诊断实体的标准化描述主要采用国际疾病分类编码规范(International Classification of Diseases 10,ICD-10)。临床术语标准化是医学自然语言处理中的重要研究课题,是对临床医疗文本进行后续挖掘和分析的基础。目前英文临床术语的标准化研究较为深入,但是中文领域的相关研究相对
在当今科技迅猛发展的时代,智能制造技术所具有的先进性和复杂性更加体现在了现代工业生产过程中,市场竞争也更加激烈,这种复杂的市场环境给制造企业带来了巨大的挑战。科学合理的生产计划和排产调度,对于降低产品成本、提升企业经济效益会产生巨大的作用。因此,对于智能工业制造企业而言,优化车间调度方法是目前的一个研究热点。在智能工业产品零部件制造过程中,企业不仅要考虑到工件的冲压加工工序,为提高产品的强度和韧性
随着汽车保有量的不断增长,智能交通已经深入我们的日常生活,车牌检测作为智能交通中重要的组成部分同样得到了飞速的发展,为城市公共交通的规划与出行带来了极大的便利。由于汽车所处环境极其复杂,为车牌检测识别带来了很大的困难,通过分析大量车牌数据得出光照是影响车牌检测识别的主要因素。通过对车牌识别场景中的实际问题和车牌图像的数据特点的分析,本论文以卷积神经网络为基础框架,重点研究车牌识别过程中的低光照增强
随着互联网技术的日益普及和医学文献数量的快速增长,医学文献数据量呈现爆炸式增长,但大量医学文献数据大多以结构化方式存储,有着不易提取,人工标注成本高昂等特点。在医学文献中,文献摘要记录着重要信息,如何根据大量的医学文献摘要抽取重要的循证医学数据,并分析从而开发合成新的药物来治疗疾病变得愈发重要。医学文献命名实体识别,作为自然语言处理的基础和重要的任务,可以从非结构化的医学文献中抽取规范的实体,可以
随着当今社会信息化和智能化的迅速发展,利用计算机实现以人为中心的各类分析成为了可能。在人机交互、视频监控、医疗防护等应用场景中,准确的人体解析、姿态估计以及进一步的行为识别都是至关重要的。本文使用深度学习的方法,通过对现有的以人为中心的各类分析方法进行研究,寻找其中的不足之处,提出了相应的改进方法。本文的主要研究内容如下:(1)提出了一种用于人体解析的类别感知网络。针对现有人体解析模型的提取特征方