论文部分内容阅读
2016年7月底,中共中央办公厅、国务院办公厅印发了《国家信息化发展战略纲要》,将建设“智慧法院”列入国家信息化发展的战略。人民法院作为我国的审判机关,“智慧法院”的建设对提高案件受理、审判、执行、监督等各环节信息化水平,推动司法信息公开,促进司法公平正义具有重大意义。目前法院系统内的案件数据十分丰富,拥有很多有价值的信息,然而当前数据缺乏有效的组织,关键知识难以抽取,难以进行分析与利用。近年来,知识图谱技术的大力发展,为大规模结构化知识的检索、分析提供了可行性解决方法,从专业且大量的案件数据中提取重要的结构化知识进行知识图谱的构建,不仅可以解决“智慧法院”信息化建设中大规模案件信息的搜索、展示与存储问题,而且可以以案件为中心,将法院、法官、原告或被告等重要知识进行关联。知识图谱的构建可以有效的组织、分析、挖掘法院中的海量有价值信息,为高效的案件审理与智能分案问题的解决提供数据基础,让“智慧法院”的信息化建设成果更好的服务社会。本文主要以法院判决书为数据源进行面向“智慧法院”的知识图谱构建工作。首先根据“智慧法院”当前信息化建设需求构建知识图谱结构,然后从判决书等数据源中抽取需要的实体以及属性知识,经过知识融合后形成知识图谱,出于性能考虑,使用Neo4j图数据库和MongoDB非关系型数据库对知识图谱进行存储。为了减少后续知识图谱更新维护成本,本文实现了自动化更新系统,系统能自动抽取新判决书中的知识,截至2019年4月,系统已经将200多万篇判决书数据自动更新到知识图谱中。在知识图谱构建过程中,面向判决书的实体以及属性标注数据极其匮乏,开放抽取工具在判决书上的抽取效果不理想。本文根据原始数据特点,对不同知识采用不同的策略进行抽取,针对结构化文件中的知识,直接解析结构化数据文件;针对可以从判决书中总结规律的知识,采用基于规则的方法进行抽取;针对规则性不强且不存在结构化文本中的知识,采用基于机器学习的方法进行抽取。从非结构化数据中进行实体抽取是本文的重点研究内容,本文在序列标注方法的基础上,提出融合实体边界特征的BiLSTM-CRF模型和基于BERT预训练的BERT-CRF模型,并针对此方法进行了训练语料库标注,实验结果表明,两个模型都有相对较好的识别效果。