基于深度学习的命名实体识别研究

来源 :云南财经大学 | 被引量 : 0次 | 上传用户：CHEUNGKWOKKUNG

【摘要】

：

【作者】

：

王玥

【出处】

：

云南财经大学

【发表日期】

：

2020年02期

【关键词】

：

新闻文本法律文本深度学习条件随机场

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

现如今,在每天都致力于快速发展的社会中,科技发展的脚步和互联网不断地进步已经势如磅礴般不可抵挡。这使得每天都有数以万计甚至亿计的信息涌现在人们的眼前。而命名实体识别(英文简称为NER),作为一项能够实现从文本数据中识别关键、有用信息如人名、地名、机构名及其他杂项实体等命名实体的任务恰恰满足了人们迅速抓取文本中重要信息的需求。经过多年研究,识别手段从基于规则,发展到后来使用传统统计学方法。随着近几年来深度学习的兴起,使得人们开始尝试以无需人工参与训练过程的深度学习方法进行命名实体特征的学习和实体识别。虽然NER任务已经在多个领域取得了显著性成就,但是还有一些涉猎未深的领域需要我们去探索,比如和人们生活息息相关的法律领域。从2017年起国家多次公布加快法律智能化建设的重要文件,智能判案、智能法院的建立是现在亟待解决的问题,而针对法律文本的命名实体识别工作,正是解决问题的第一步。但是在已有的命名实体识别研究中,专门针对法律领域的研究成果并不多见。因而,本文紧跟时代的脚步,采用了基于深度学习的方法对特定领域中的命名实体开展了识别工作。首先,本文对基于传统的统计学方法和基于深度学习方法的NER效果进行了实验对比。为了从多个角度对二者的差别进行对比,本文首先通过研究两种基于传统统计学方法的理论知识,即隐马尔科夫模型和条件随机场模型认识到了传统的统计学方法在命名实体识别任务中的局限性,如隐马尔科夫模型不能很好地对文本中的上下文关系进行学习,条件随机场模型的识别效果过度依赖于它的特征模板等。接下来,为了对比两种算法的实体识别效果,本文选择了与生活较为贴近的新闻领域文本语料展开了相关的命名实体识别工作。这其中包括:一,对囊括了十八个新闻类别的搜狐新闻数据进行了预处理,并对有待识别的命名实体进行了相关标记;二,采用加入附加门的LSTM-CRF深度学习模型对处理过的文本数据进行了人名、地名、机构名以及其他杂项实体的识别工作,并与传统的统计学方法中的条件随机场模型的识别效果进行对比,从实验结果发现CRF模型虽然运行时长较短于深度学习模型,但是其实验效果很大程度上受限于所设定的特征模板,与深度学习方法相比无法更好地学习到数据中尽可能多的有关特征。在进行了模型的对比实验之后,本文将命名实体识别的语料扩展到了法律文本语料,选择了刑事案件法律文书进行命名实体识别的相关研究实验,具体如下:首先,出于法律文本组成的特殊性,本文在数据预处理时将命名实体划分为了人名、地名、机构名及刑事罪名四类实体,并且在实体标注过程中人工添加了183项刑事罪名;接着,采用加入附加门的LSTM-CRF深度学习模型对经过预处理得到的文本数据进行了实体识别,通过扩大词嵌入层的方式得到了在刑事罪名的识别上较好的识别效果,并且通过对实验结果的分析发现了法律文书在构成上的一些规律性。最后通过与Bi-LSTM-CRF模型的实验结果对比,证明了本文所采用的加入附加门的LSTM-CRF模型在运用到法律领域的命名实体识别上时能够得到较好地实体识别结果。

其他文献

矢量水听器在水下目标低频辐射噪声测量中的应用

研究利用矢量水听器测量水下目标低频辐射噪声的问题 ,并给出了测量方法和海上试验结果 .

期刊

矢量水听器辐射噪声

积极财政政策执行效果及隐忧问题研究——H省执行情况个案分析

基于凯恩斯主义国民收入决定理论 ,通过对H省经济运行数据的实证模拟 ,分析H省积极财政政策的执行情况 ,并结合H省省情和我国国情 ,我们得到了九个基本命题 :命题 1∶H省经济

期刊

积极财政政策执行效果财政依赖隐忧问题

英达沥青路面就地热再生成套设备及施工技术达国际领先水平

<正>近日,由交通运输部科教司组织的"英达沥青路面就地热再生成套设备及施工技术鉴定会"在南京召开。会上,专家鉴定小组成员一致认定:"英达沥青路面就地热再生成套设备及施工

期刊

沥青路面就地热再生成套设备鉴定小组

董事高管责任保险、管理者风险倾向与企业财务困境

近年来,受到国内外错综复杂的环境影响,我国经济发展进入了“新常态”。众所周知,企业的健康发展关系着一国经济的前途。因此,在这个经济发展的新常态下,企业若想保持稳健的

学位

董事高管责任保险管理者风险倾向企业财务困境

陆军合同战斗方案仿真实验评估分析框架

为了应对作战方案实验评估的各种需求和快速构建评估分析系统,基于软件领域开发中的构件化技术思路,给出了分析框架的技术解决方法,它封装了分析中常用的功能和基础处理模块,

期刊

战斗方案仿真实验评估分析行动解析框架

高速公路运营成本及其控制

成本管理及控制是实现高速公路效益目标的主要决定因素。因此,加强高速公路运营的成本管理,降低成本消耗,对提高高速公路的整体营运效益极为重要。

期刊

高速公路经营成本成本控制

绘画制作:FlyingFLY

<正> 我们是不是可以选择餐后饮料呢?

期刊

FlyingFLY

通州区新农村道路规划建设研究

村庄道路系统建设是新农村建设的重要内容之一,本文以通州区新农村路网建设为基础,探讨规划设计、建设和养护管理三个方面的内容。在规划设计方面,本文指出了新农村道路规划

期刊

养护管理农村道路非直线系数乡村公路养护资金市政道路硬化面积筹措方式市政管线新农村建设PPP公共服务设施

我是一名攀登者

人在高海拔雪山之中,在自然界中是渺小的,微不足道的。攀登,绝对不是对自然的征服,而是通过这种方式,表达对自然的敬畏,挑战和征服的,只是自己生理和心理的极限。这种状态下

期刊

阿尔卑斯山珠穆朗玛峰登山者四姑娘山

地区间竞争、财政自给率和公有制企业民营化

相关文献认为 ,分权化改革导致的地区间竞争加剧引发了各地区的国有企业民营化进程。本文试图通过实证分析验证这一结论。本文的实证分析表明 ,地区间竞争加剧的确会推动相关

期刊

市场分割度地区间竞争财政自给率公有制企业改制

基于深度学习的命名实体识别研究

其他学术论文