面向法律文本的知识要素间关系抽取技术研究与实现

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:leovvex
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着全球大数据时代的到来,各种类型的数据已显示出爆炸性的增长趋势。而司法案件审理过程中所依赖的各类法律条文、案件卷宗、判决案例也使得法官在司法实践中不堪重负。与此同时,随着国家司法实践中以审判为中心的诉讼制度改革的推动,不仅需要提高处理案件的质量和效率,而且还需要防止不公正和错误的案件以及司法任意性,避免因法官在专业背景以及能力上的个体差异带来的审判差异。因此,通过人工智能技术提高司法人员对案件判决的准确性和效率,具有很大的研究空间和研究价值。本文主要研究面向法律文本的知识要素间的关系抽取,通过关系抽取技术来建立法律案件文本中实体间的关系,为构建案件知识图谱提供数据和技术支撑。特别是在法律领域,针对法律文书中的实体关系抽取研究较少,并且国内很少有针对法律文本中实体间关系的数据。本文所研究内容不仅包含改进现今流行的文本实体关系抽取技术,使其能适用于法律文本领域,还包含对法律文本数据的处理,并且可以为后来者继续研究法律领域的关系抽取技术提供数据上的支持。本文以交通肇事法律文本为例,对法律文本进行实体的识别和关系的抽取。文本为判案裁定书,由于裁判文书可以视为有模板的半结构化数据,本文基于规则和词典的方法对交通肇事法律文本进行实体识别,在此基础上通过半监督技术完成对实体间关系数据的处理。半监督技术主要是预先设计好关系抽取的类型,选择好的实体对作为初始种子集,基于模板匹配的方式不断迭代,筛选效果好的模板和实体对,最后生成需要抽取的实体对及其关系,降低人工标注数据的工作量。针对法律文本领域句子较长的特点,本文采用双向GRU作为核心神经网络单元,与RNN相比GRU能够充分利用句子上下文信息,与LSTM相比GRU结构更为简单,参数也较少,这在句子较长时能更有效地避免梯度消失和梯度爆炸的问题。针对一个句子包含多个实体以及不同实体具有不同关系类型的特点,通过引入Attention机制来代替传统的手工计算词位置作为特征,减少了输入维度,避免了维度爆炸,减少了计算量,提升模型的准确性。
其他文献
随着各类信息系统的应用,制造企业逐渐暴露出设计知识"大爆炸"、知识管理混乱、重用困难等问题。为了解决上述问题,首先建立了表现知识体系和知识关联的知识地图,主要包括知识
提出了一种基于DXF文件的线切割CAD_CNC一体化系统,从DXF文件的分析与读取、图元的提取与处理、加工轨迹的补偿处理、加工代码的生成与输出等方面详尽论述了本系统的开发过程
<正>激光与材料相互作用首先是从入射激光被材料反射和吸收开始的,材料对激光的初始反射率与其入射表面状况、环境氛围、激光波长等因素有关。当激光辐照材料时,通过各种耦合
会议
文章分析了当前高速公路服务区建设存在的突出问题,提出了优化高速公路服务区建设的相应策略,以合理开发利用土地资源,完善服务区基本功能,促进高速公路经济的快速发展。
以四轴三联动内螺纹磨削中心为研究对象,通过对CAD模型进行简化,运用ANSYSWorkbench对结合面的处理功能建立了整机有限元模型。在模拟机床工况的情况下,进行了整机的静、动态特
随着经济社会快速发展,近些年我国医疗卫生事业取得巨大进展。然而,在我国医疗卫生事业发展良好的大背景下,却面临医疗纠纷频发的现实困境。2018年10月1日生效的《医疗纠纷预