论文部分内容阅读
现如今,在每天都致力于快速发展的社会中,科技发展的脚步和互联网不断地进步已经势如磅礴般不可抵挡。这使得每天都有数以万计甚至亿计的信息涌现在人们的眼前。而命名实体识别(英文简称为NER),作为一项能够实现从文本数据中识别关键、有用信息如人名、地名、机构名及其他杂项实体等命名实体的任务恰恰满足了人们迅速抓取文本中重要信息的需求。经过多年研究,识别手段从基于规则,发展到后来使用传统统计学方法。随着近几年来深度学习的兴起,使得人们开始尝试以无需人工参与训练过程的深度学习方法进行命名实体特征的学习和实体识别。虽然NER任务已经在多个领域取得了显著性成就,但是还有一些涉猎未深的领域需要我们去探索,比如和人们生活息息相关的法律领域。从2017年起国家多次公布加快法律智能化建设的重要文件,智能判案、智能法院的建立是现在亟待解决的问题,而针对法律文本的命名实体识别工作,正是解决问题的第一步。但是在已有的命名实体识别研究中,专门针对法律领域的研究成果并不多见。因而,本文紧跟时代的脚步,采用了基于深度学习的方法对特定领域中的命名实体开展了识别工作。首先,本文对基于传统的统计学方法和基于深度学习方法的NER效果进行了实验对比。为了从多个角度对二者的差别进行对比,本文首先通过研究两种基于传统统计学方法的理论知识,即隐马尔科夫模型和条件随机场模型认识到了传统的统计学方法在命名实体识别任务中的局限性,如隐马尔科夫模型不能很好地对文本中的上下文关系进行学习,条件随机场模型的识别效果过度依赖于它的特征模板等。接下来,为了对比两种算法的实体识别效果,本文选择了与生活较为贴近的新闻领域文本语料展开了相关的命名实体识别工作。这其中包括:一,对囊括了十八个新闻类别的搜狐新闻数据进行了预处理,并对有待识别的命名实体进行了相关标记;二,采用加入附加门的LSTM-CRF深度学习模型对处理过的文本数据进行了人名、地名、机构名以及其他杂项实体的识别工作,并与传统的统计学方法中的条件随机场模型的识别效果进行对比,从实验结果发现CRF模型虽然运行时长较短于深度学习模型,但是其实验效果很大程度上受限于所设定的特征模板,与深度学习方法相比无法更好地学习到数据中尽可能多的有关特征。在进行了模型的对比实验之后,本文将命名实体识别的语料扩展到了法律文本语料,选择了刑事案件法律文书进行命名实体识别的相关研究实验,具体如下:首先,出于法律文本组成的特殊性,本文在数据预处理时将命名实体划分为了人名、地名、机构名及刑事罪名四类实体,并且在实体标注过程中人工添加了183项刑事罪名;接着,采用加入附加门的LSTM-CRF深度学习模型对经过预处理得到的文本数据进行了实体识别,通过扩大词嵌入层的方式得到了在刑事罪名的识别上较好的识别效果,并且通过对实验结果的分析发现了法律文书在构成上的一些规律性。最后通过与Bi-LSTM-CRF模型的实验结果对比,证明了本文所采用的加入附加门的LSTM-CRF模型在运用到法律领域的命名实体识别上时能够得到较好地实体识别结果。