面向离婚类文书数据的命名实体识别

来源 :山西大学 | 被引量 : 0次 | 上传用户:psiteddd
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着智慧司法服务的快速发展和广泛应用,对司法文书的分析与挖掘已引起越来越多的关注,命名实体识别(NER)作为司法领域研究中的一项基础性任务,它能为司法知识图谱构建、法律判决预测和机器阅读理解等一系列的研究工作提供重要的知识。命名实体识别旨在识别出文书数据中的实体指称项,并标明其实体类别。近年来,许多命名实体识别的研究工作均基于深度学习、神经网络模型等,但专门针对司法领域实体识别的研究还相对较少。目前该研究主要存在以下问题:(1)司法领域命名实体识别任务无公开标注数据集与实体标注规范;(2)深度学习模型通常需要大量的标注数据来进行训练,现有标注数据不足导致实体识别效果并不理想。基于此,本文首先针对司法领域无公开标注数据集及相关标注规范的问题,定义了实体标注规范,构建了小规模标注数据集;然后针对司法文书数据标注短缺问题,提出了基于模型融合数据增强的命名实体识别方法;最后针对所提模型存在的实体标注错误,进一步提出了基于规则增强的实体标注修正方法。相关实验结果表明,本文提出的方法提高了实体识别的效果,有效改善了标注数据短缺问题。论文主要工作包括:第一,定义了司法实体标注规范并构建了小规模数据集。通过对大量离婚类文书数据的分析,参照ACE和MUC的实体标注规范,定义了人名、地名、组织机构名、时间、案号及法条六类实体的标注规范,人工标注了300篇离婚类文书数据。第二,提出了基于模型融合数据增强的司法文书实体识别方法。基于半监督学习的思想,提出了单模型融合和多模型融合方法来扩充标注数据,并分别在司法文书数据和其他两个公开的命名实体识别数据集上进行了实验。实验结果表明该方法可以有效提升司法文书的实体识别效果,且在不同类型的数据集上均获得了更好的结果。第三,提出了基于规则增强的实体识别方法。通过对司法文书数据分析,发现大多文书数据有较为规整、固定的格式,且文书中包含的实体也具有特殊性。基于此,本文借鉴基于规则的错误驱动思想,定义了专门的规则,对模型标注后数据中仍然存在的实体错误进行了进一步的修正,并尝试将模型迁移到刑事类文书数据中。实验结果表明该方法可在一定程度上改善实体识别的效果。
其他文献
词义理解是人在阅读中必备的一种能力,也是考试阅读理解中重要的一项考察内容。词义理解题通常有两种形式:(1)词义辨析题:给定目标词语及其释义,判断该释义是否为目标词所在上下文的意义。(2)词义解释题:给定目标词及其上下文,给出目标词的意义解释。本文针对这两类挑战性问题提出了相应的解决策略。本文的主要工作如下:(1)尝试了基于相似度的多策略词义辨析题解答方法。本文从词义辨析题的解答难点及人类解题的思路
随着互联网技术的飞速发展,网络上的新闻数据呈指数级增长,对新闻语料进行关键词提取有助于终端用户快速了解新闻内容,有助于新闻媒体机构对新闻进行快速分类和检索,更有助于高效编辑和管理。传统关键词主要是通过手工标注方式,数据量大、维度高,同时需要大量昂贵人力和时间资源,已经远远不能满足系统高效实时可用等需求。本文基于新闻领域设计和实现了一个智能关键词提取系统,该系统利用深度学习模型自动进行特征学习,采用
作为数据挖掘的一项重要技术,聚类分析已经逐渐成为一种跨学科、跨领域的数据分析方法。传统的聚类是一种无监督的分析方法。半监督聚类主要是将少量先验知识融入到聚类过程中以获得更好的聚类结果。本文以半监督聚类为主题,就聚类的有效性进行了评估分析,主要研究内容如下:(1)大量的不同类型的半监督聚类算法已被提出,评估其算法的有效性已成为半监督学习的重要研究内容之一。然而,已有评估方法主要以无监督聚类结果为基准
在当前社会中,智能安防越来越凸显其价值,是维护社会长治久安的重要手段。自动视频分析系统是智能安防系统的一个子系统,主要是从监控视频内容中提取关键的行人信息。行人重识别正是自动视频分析系统的核心技术之一,目前已成为了深度学习领域的研究热点。近年来,基于深度学习行人重识别方法在开源数据集上已经表现出优越的性能,但是在跨域行人重识别问题上性能明显下降。本文深入分析了跨域行人重识别存在的问题,并利用深度学
近年来,面向智慧司法服务的法律判决预测已成为自然语言处理领域的研究热点。判决要素抽取是法律判决预测研究的重要子任务之一,其旨在从法律文书的事实描述中自动识别出不同的判决特征,现有研究主要是从法律文书的事实描述部分抽取出判决要素词汇或句子。法律判决要素抽取是判决预测研究的重要依据,为判决预测的结果提供可解释性。本文基于2019中国“法研杯”司法人工智能挑战赛“要素识别”任务,重点研究面向法律文书事实
聚类集成能够产生高质量和鲁棒的划分结果,解决了单一聚类算法只能解决特定问题的缺陷。聚类集成主要包括了两个步骤:(1)生成基划分;(2)信息矩阵的表示及生成一致性聚类结果。加权聚类集成和聚类集成选择是从不同的角度进一步提高聚类集成方法性能的两种方法。聚类集成选择生成基划分后采用不同的准则选出高质量的基划分结果,目前鲜有工作从基划分结果中簇之间的关系出发设计衡量基划分质量的标准。现有的加权聚类集成方法
中西方绘画是世界历史文明发展史上重要的文化作品形式之一。在历史进程中出现了许多优秀的绘画作品,这些优秀作品是研究历史、文化、艺术和科技的重要载体。随着互联网技术数字化的日益普及,越来越多的绘画艺术作品被录入电子图书馆,艺术爱好者欣赏优秀的绘画作品变得更加容易。逐渐增加的数字绘画图像为学者们带来丰富的研究资源,同时,如何将大规模的数字绘画图像进行有效分类,是目前亟需解决的热点问题之一。绘画作品与普通
近年来,机器阅读理解研究受到国内外自然语言处理领域学者的广泛关注,已成为评价基于自然语言理解的智能系统的核心任务之一。2015年,国家科技部启动“语言问题求解和答案生成关键技术及系统”项目,其主要目标是研制出能够参加我国高考的智能答题机器人,并提升机器对自然语言的理解能力。在该项目的推动下,面向真实高考阅读理解试题的自动答题研究成为近年来机器阅读理解任务中的又一挑战。深度学习方法已被证明是机器阅读
机器阅读理解是近年来自然语言处理一个热门研究领域,本文聚焦高考语文文意理解多选题,该题型考查的是对文章局部信息、主旨、作者意图和态度的把握,文意理解的选项复杂多变,主要测试机器对文章语义关系、散文结构、写作技巧、篇章主题和作者情感等内容的理解能力以及对文章整体的把握能力,挑战极大。本文首先分析选择题与选项特点,其次将选择题答题技术分为两种,一种是基于两段式的阅读理解答题技术,一种是基于联合训练的端
2018年教育部新课标方案提出人工智能进课堂,将编程技术纳入高考范围,编程地位直线上升。在国家的号召下,现在很多中小学都非常重视学生编程能力的培养,所以开发一个编程教学管理与资源推荐系统对学校高效的开展编程课程是非常有必要的。目前中小学程序设计等课程存在的主要问题有:学生上机练习机会较少,缺少便捷高效的编译环境;教师与学生之间课堂沟通不足;学生自学时,面对种类繁多、数量庞大的学习资源,难以选择。编