论文部分内容阅读
近些年来,随着自然语言处理技术的不断发展,以及面向裁判文书的司法大数据不断公开,如何将人工智能技术应用于司法领域,以提高司法人员在案件处理环节的效率逐渐成为法律智能的研究热点。法律文书中包含丰富的案情要素信息,通过对法律文书要素的抽取,可以更快速、便捷地辅助法官获取所需信息,提高法官办案效率。本文针对法律文书要素识别方法开展研究,主要研究工作如下:(1)法律文书基本要素识别。法律文书基本要素是指法律文书共有的案件基本信息,例如,案号、证据名、证实内容等,可在法律文书中直接抽取。本文依据证据名和证实内容字符长度较长,且两种基本要素间关联性强的特点,提出了基于JCWA-DLSTM的法律文书基本要素识别方法。利用预训练的字级语言模型获取包含字符上下文的词表示,以减小分词错误带来的影响。同时,利用自注意力机制,捕获词级间的依赖关系,建立基本要素件的关联性,实现法律文书基本要素的识别。本文所提出的方法与基线方法的实验结果表明,JCWA-DLSTM方法的F1值达到了91.70%,明显优于基线方法。所提出的方法有助于法律文书基本要素识别。(2)法律文书核心要素识别。核心要素是指法律文书中的重要事实描述,需要根据文本语义,将其归类到预设的事实描述要素类别。经过观察发现要素标签之间存在相关性和差异性,为了充分利用标签信息,本文提出了基于HIAN的法律文书核心要素识别方法。该方法利用层级注意力捕获标签特征,用于获取特定标签的表示,实现核心要素的识别。另外,该方法在三个领域的数据集上与基线方法进行了实验。实验结果表明,本文提出的HIAN方法的Macro-F1值优于基线方法,证明本文提出的HIAN方法能够捕获丰富的标签特征,对法律文书核心要素的识别是有效的。(3)法律文书要素识别系统的设计与实现。为了方便法律工作者对法律文书要素的自动抽取,本文利用JCWA-DLSTM方法和HIAN方法,设计并实现了一个法律文书要素识别系统,该系统具有法律文书基本要素识别和核心要素识别功能。系统界面简洁,使用方便,能够完成法律文书中的要素识别任务。