裁判文书的三元组抽取技术研究

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:heroszk2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
三元组抽取能将非结构化的文本以结构化的形式进行表示,是自然语言处理中的一项重要研究内容。对裁判文书进行三元组抽取,对于上游构建知识图谱、建立检索系统、自动问答系统等起着关键的作用,能够帮助司法系统进行知识表达和知识推理,推进智慧司法的建设。裁判文书文本中实体间难以用预定义关系集来限定,且缺乏大规模的标注语料,导致传统通过训练分类器或神经网络模型的实体关系抽取方法不适用。而目前常见的开放式中文三元组抽取方法通常只考虑了句子浅层的句法、位置特征,或是仅从句子的核心词出发,不能有效地完全抽取。本文针对上述问题,提出基于依存句法抽取模式的三元组抽取方法和结合预训练模型和DSEP的三元组抽取方法,并设计对比实验进行验证。论文工作得到了国家重点研发计划项目“内外贯通的审判执行与诉讼服务协同支撑技术研究”(2018YFC0831300)的支持,主要工作如下:(1)针对裁判文书难以用预定义关系集限定和缺少已标注数据集的问题,提出基于依存句法抽取模式的三元组抽取方法。本文对裁判文书文本进行统计分析,总结了三种普遍存在的语言特征,研究发现,这些语言特征能通过句子的依存句法树有效反映。以此为基础,将句子的实体与关系描述映射到依存句法树,提出8种依存句法抽取模式DSEP(Dependency Syntax Extraction Pattern),并基于DSEP设计了抽取算法。本方法将句子中所有名词和名词短语视为实体,通过两两组合为候选实体对匹配DSEP来发现其关系描述词,不局限于使用核心词作为关系。本方法不依赖于任何人工标注,实验结果表明,在准确率和召回率上均高于现有方法CORE、Un CORE和ZORE。(2)为了进一步提高三元组抽取的效果,针对上述方法存在的LTP处理错误、DSEP覆盖不全的问题,提出结合预训练模型和DSEP的三元组抽取方法。利用前一方法的抽取结果,再辅以人工标注的小样本能够构成有标注的数据集,因此设计一个神经网络模型,通过训练它来实现对前一方法抽取效果的修正。本方法将三元组抽取建模为序列标注任务,对句子中的实体和关系描述词进行多标签标注,使用预训练模型BERT(Bidirectional Encoder Representations from Transformers)作为句子的编码器。利用BERT对输入句子的上下文信息进行捕捉,得到句子的分布式表示;下游使用Softmax激活的全连接层对每个字进行多标签分类;考虑到输出序列的标签之间也存在上下文关联,利用CRF层引入标签的上下文信息。实验结果显示本方法能有效提高前一方法的抽取效果,在准确率和召回率上均有提升。
其他文献
可逆水印,作为一种特殊的数字水印技术,需要提取方在正确提取水印后无失真的恢复原始载体。这种可逆性对于医学、军事和法律等具有高保真要求的特殊领域至关重要。但是,含水印图像在信道的传输过程中会产生一定的质量损失,这就要求可逆水印同时可以抵抗一定程度的攻击,比如JPEG压缩和噪声等非恶意攻击。因此,鲁棒可逆水印(Robust Reversible Watermarking,RRW)技术应运而生。鲁棒可逆
随着无线通信技术的不断发展,车联网正朝着异构化的趋势不断演进。异构车联网将短距离通信、蜂窝网等技术结合在一起,满足了不同场景下的车载业务需求。面对车联网中复杂的网络拓扑和严苛的通信条件,如何保证车辆移动时网络连接的稳定性,提升车联网技术辅助下车辆的驾驶安全是目前学术界研究的热点。早期的异构车载网络大多依靠远程云服务器进行海量数据的分析与决策,由于传输距离较远很难对一些时延敏感型数据进行实时处理。利
近年来,随着互联网和多媒体技术的飞速发展,数字信息以图像、视频、文字等形式被广泛传播。多媒体数据易被非法获取和篡改,从而导致严重的信息安全问题,例如版权纠纷、数据泄露等。作为多媒体数据版权保护的一种有效方法,数字水印技术在不影响视觉效果的情况下,将标识信息嵌入到多媒体数据中,从而利用提取的嵌入信息确认版权。本文针对最广泛使用的多媒体数据载体,即图像和视频,研究了不同嵌入规则下的鲁棒盲水印方法,优化
涉案财物管理是刑事诉讼程序中一项十分重要的内容。当前,我国对于涉案财物采用“实物移送,各自管理”的管理模式。这种模式容易出现业务衔接不畅、司法效率过低以及涉案财物被非法侵占等问题,其原因在于公安机关、检察院和法院等涉案财物管理单位之间往往会产生信息孤岛效应,导致信息传递与财物转移失去一致性。本文针对这一问题进行分析,利用区块链技术构建了涉案财物跨部门转移的协同管理过程,重点研究了共识的形成机制。本
四维光场相机被认为是优秀的成像设备,具有广阔的发展前景。其和传统的相机相比,不仅可以记录每个像素的强度,并且可以记录光的方向,提供了丰富的结构信息。通过获取光场中的有效信息,许多基于视觉的应用得以进一步发展,如虚拟现实、重聚焦、三维重建等。而基于光场的三维重建,可以准确地恢复场景的三维结构,所以逐渐成为了国内外研究的热点。本文将基于光场的三维重建分为两个部分进行介绍:在同一个光场中,包含了针对同一
随着目标检测领域的不断发展,人们逐渐发现,标注成本问题成为了限制其发展的重要因素之一。如何使用简单标注的数据集训练出高精度模型成为了亟需解决的问题,针对此问题,研究者们提出了弱监督目标检测算法。虽然人们逐渐攻克了弱监督检测中遇到的一些挑战,但困扰着该领域的两大问题依然未被完全解决。第一个问题是多尺度检测问题。现有的检测方法更倾向于定位和识别尺度变化不大的目标,很难同时检测出较大和较小的目标。多尺度
语法纠错(GEC)一直是自然语言处理的重要研究任务之一,该任务的目的是对文本中的错误语法进行检测并纠正。随着深度学习的发展以及数据的爆炸性增长,翻译模式成为GEC任务的首要选择,序列到序列(seq2seq)模型在GEC任务中得到了广泛应用。相较于英文等字母语言,中文有许多不同的特性。并且,中文GEC任务的相关数据集较少,这限制了seq2seq模型的学习能力。针对以上问题,本文在现有的研究基础之上,
学术界和工业界的信息化和网络化发展如火如荼。各行各业都围绕大数据开展了深刻的变革。其中位置信息在交通运输场景,个人移动场景,企业设备管理的重要性日益凸显。在户外,车辆获取位置信息的通用方案为使用全球导航卫星系统(Global Navigation Satellite System,GNSS)和惯性导航系统(Inertial Navigation System,INS)的组合系统。其中,GNSS是空
本文对体医融合背景下老年人体育锻炼行为特征和效果进行综述,发现通过体育锻炼可以改善老年人的身心健康和提高社会适应能力,并得出如下启示:多元主体参与,构筑"老年人体医融合环境";加强老年体医融合复合型人才的培养,创建老年人体医融合服务团队;加大宣传和健康教育,提高老年人体育锻炼意识;充分利用互联网和大数据等先进技术监测老年人体质和锻炼水平。
期刊
随着计算机技术的发展,数字图像在人们生活中被广泛使用,同时数字图像中潜在的安全问题也日益严峻。篡改的数字图像通过网络等途径的传播会影响人们对于事物的判断,甚至是给经济和社会秩序造成危害。为了能够检测篡改的数字图像,保护信息安全,数字图像取证技术在近些年得到了很大的发展。与此同时,为了探究取证技术的安全性,促进取证理论的完善,数字图像反取证研究也得到了广泛的关注。本文针对数字图像对比度增强反取证这一