基于民事案件法律文书的命名实体识别研究

来源 :中央民族大学 | 被引量 : 0次 | 上传用户:sanlyye
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着人工智能技术的不断革新,国家对各行各业越来越注重信息化的投入。自然语言处理作为文本信息化的一种重要方式,将其与司法文书相结合使得司法办公自动化必将成为大势所趋。本文主要研究的民事案件法律文本中命名实体识别任务,是司法领域信息化的基础工作之一,对后续的司法案件信息提取、案情辅助研判等一系列应用具有促进作用。本文在基于民事案件法律文书的命名实体识别研究中,完成了以下工作:1)构建司法领域命名实体识别的标注语料库。目前并没有公开的规范化司法文本标注数据集。本文使用信息采集技术在中国裁判文书网采集了200份全国各级法院公开的民事案件二审民事判决书。通过相应的处理对各类实体进行了BIOES标注,并形成规范化的命名实体识别标注语料集。2)为了更好地解决训练数据不足的问题,我们使用伪标记数据自动生成的方法来生成伪标记样本,以此扩充我们的数据集。即使用相同概念的其他实体名称随机替换标签句子中的实体名称,来生成全新的语义正确的完整段落。目前并没有人将这种方法应用在司法领域,用来丰富司法文本的标注语料库。3)针对司法文本实体识别任务,本文提出了两种不同的方法来解决该问题。首先是提出“词汇增强法”来改善基于字符级的实体识别模型,我们使用的是主流的BiLSTM-CRF网络模型。本文创新型的探讨了一种更简单有效的方法来将词汇信息引入到基于字符的NER系统中,即对字符表示层进行调整引入显式的词汇边界信息。这个方法既避免了设计复杂的序列模型结构,又对于任何神经网络模型有很好的移植性。其次是基于迁移学习的实体识别模型的提出与训练。一方面我们使用从大规模的标准新闻语料中学习到的字向量对数据集进行嵌入,使得新闻语料中大量的中文语言学信息得以与司法文本相融合;另一方面将MSRA训练集作为模型的主要训练数据,并通过将不同比例的少量司法文本加入到训练集中,让模型能够捕捉到其中的体例格式和实体种类。判决书文本中存在实体分布高度不均的情况,造成模型对数量少的实体种类学习不够充分。而MSRA数据集中实体的密度和分布较均匀,所以通过将其与判决书文本混合来达到弥补判决文书缺点的目的。实验结果表明,与目前几种主流方法相比,伪标记样本法和词汇增强法都能达到预期效果,有效提高了文书中四类实体的识别效果。而将两者相结合后取得的效果是所有方法中最优的,其中总体识别准确率为97.16%、查全率为93.76%、F值为95.43%,在长实体名称组织名以及领域专有实体名称法条名中取得了97.49%和89.06%的F值。迁移学习方法的效果仅次于词汇增强法,可以达到91.95%的准确率、87.68%的查全率和89.76%的F值,89.24%的组织名F值和92.08的法条名F值。并且迁移学习方法使用的司法训练集数量远远远少于其他模型,针对一些数据量较少或者数据获取有难度等语料不足的领域,该方法比较适用。4)将我们提出的两种模型进行融合训练并应用到具体的场景下,设计了一个在线且实时的实体识别应用。根据本文在司法领域民事案件中所做的相关研究工作,基于B/S软件架构设计模式设计了应用。该应用是基于本文提出的司法领域命名实体识别模型开发的,还可以作为接口引用到语料标注过程中,作为辅助标记工具,具有一定的使用价值。
其他文献
社会的快速发展使得人们的生活和计算机视觉的联系越来越紧密,导致目标跟踪在智能驾驶、机器人与监控系统等领域受到了极大关注,目标跟踪在各类系统的应用也越来越广泛。目前,目标跟踪算法依然存在很多问题,例如在复杂背景、快速运动等多种情况下,目标跟踪的成功率低等。近些年随着机器学习相关技术的迅猛发展,基于机器学习的目标跟踪算法进展也十分迅速,但是需要有大量多种场景图片的标准数据来训练卷积参数,其中涉及到十分
近年来,随着信息技术的不断发展,自然语言处理的研究逐渐转向自然语言理解的研究,机器阅读理解便在这个大背景下应运而生。机器阅读理解不仅仅是对文字的“感知”,更是对文字的“认知”。机器阅读理解任务要求机器理解上下文本信息后,准确地回答出相关的问题,其结果可以用来评估机器的阅读理解能力。通常情况下,该任务需要机器能够对文本中的单词进行词性标注和命名实体识别找出其中的实体信息,更深层的则是需要机器执行句法
为了实现“富民、兴边、强国、睦邻”的目标,2006年国家开始实施兴边富民行动。截止到现在,圆满完成了三个五年规划,使得边境地区经济社会得到巨大的发展。现利用统计数据对当前我国陆地边境地区发展现状进行统计分析,构建评价指标体系对9个边境省(区)、140个边境县(区、旗)经济社会发展程度进行评价,对于准确把握我国陆地边境地区发展态势,为谋划下一步工作,具有一定的现实意义。本文将对十三五期间兴边富民行动
多智能体强化学习领域的研究正在快速扩张,在多个领域中如机器人团队,资源管理,分布式控制,游戏,电子商务等均取得了瞩目成就,多智能体强化学习问题的研究往往涉及密集计算与智能体之间的相互关系,而经典强化学习算法领域内探索与利用的权衡问题,在多智能体领域中仍是一项挑战。本文通过对Stein梯度下降法(SVGD)理论技术的引入,为该项挑战提供有效的解决途径,并以车联网下的智能车辆调度为应用背景。本文结合提
随着互联网的日益发展,越来越多的用户通过微博等社交网络平台发表观点、参与热点事件的讨论。社交网络热点事件是指通过社交网络传播引起民众广泛关注并产生强烈反响的事件。在热点事件的传播过程中,通常会激起社会舆论、产生大规模的连锁反应,甚至危害社会的安全。用户作为事件传播中的主要参与者,是社交媒介的核心和主体,在热点事件的产生、演化和传播过程中发挥着重要的作用。因此如何准确有效地分析社交网络热点事件中的用
物理学科要培养学生的物理观念、科学思维、科学探究、科学态度与责任四大核心素养。物理概念是物理学科核心素养的基础,然而高中物理概念多、概念抽象、逻辑性强等特点,导致了物理概念和规律的难教和难学,尤其是物理抽象概念。因此探究促进高中物理抽象概念教学的研究非常重要。PHET仿真模拟(Physics Education Technology interactive simulation)主要是研究仿真模拟
大数据时代,推荐系统是帮助人们解决信息爆炸问题最有效的工具之一,但传统的推荐系统往往面临着数据稀疏和冷启动两大问题。近年来,社交平台的快速发展,使得各应用平台都产生了丰富的社交信息,因此有学者提出社会化推荐系统,在推荐系统中引入社交关系来提高推荐效果。虽然目前已经有许多研究工作取得了不错的成果,但多数研究都基于显式社交关系,而显式社交关系往往存在数据稀疏和噪音问题。为了弥补显式社交关系的不足,本文
与资源丰富语言相比,资源稀缺语言命名实体识别面临的最大困难是训练模型所需的语料尤其是人工标注语料的获取难度大、成本高,如何以低成本、高效率地识别资源稀缺语言的命名实体是目前资源稀缺语言命名实体识别的研究重点之一。本文研究如何从与资源稀缺语言文本相关的图片中获取与人名实体相关的信息,并将其应用于资源稀缺语言的人名识别任务中。本论文以藏文人名识别为例,具体工作如下:首先从与文本相关图片中抽取图片中的重
与基于插值或者重建的机器学习方法相比,深度学习在超分辨率(Super-Resolution,SR)任务上显示出其独特的优势。然而,人工设计一个性能优秀的超分辨率网络往往需要耗费大量的人力物力。除此之外,随着人工设计的神经网络越来越复杂,想要人工设计出一个表现不错的神经网络成为一个挑战。为了减少人工设计神经网络所花费的人力物力,神经网络架构搜索(Neural Architecture Search,