司法文本数据自动化生成系统的设计与实现

来源 :南京大学 | 被引量 : 0次 | 上传用户:fh2039
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在我国智慧法院的建设背景下,司法机关纷纷将深度学习引入司法领域及法律服务领域。司法深度学习模型大多数以裁判文书或案情事实等司法文本作为输入,研究比较广泛的类型有自动量刑预测系统、法条及罪名预测系统、类案(相似案件)推荐系统等。文本数据的缺乏会对司法深度模型表现产生负面影响,在模型训练阶段,存在训练数据缺乏导致模型泛化能力差的现象;在测试阶段,存在测试指标单一化现象,缺乏结合司法行业特性设计的具有多维度测试功能的测试数据集。本文设计并实现了司法文本数据自动化生成系统,分为训练数据生成模块与测试数据生成模块。训练数据生成模块用于为司法深度学习模型提供数据扩增服务,增加高质量的司法文本训练数据,提高模型预测准确率。模块设计了基于规则与基于变分编码器两种生成方式。其中,基于规则的生成方式结合司法文本特性提出了针对于司法文本的扩增方式;基于变分编码器的生成方法将变分编码器应用在文本生成领域,学习高斯分布到数据分布的映射关系,重建具有相似分布的新文本。测试数据生成模块用于为司法深度学习模型的多维度评价提供测试数据,使模型的测试指标多元化。模块设计了含噪声项测试数据生成方法,用于评价深度学习模型的抗噪能力;设计了对抗攻击测试数据生成方法,通过对测试数据尽可能小的文本改动,对深度学习模型进行基于遗传算法的对抗攻击,经过对抗攻击的测试数据用于评价深度学习模型的抗对抗攻击能力。系统以基于Django框架的web应用为载体,支持用户自定义生成参数,生成的文本以文件形式返回给用户。系统使用HDFS作为文件管理系统,使文件存储具有可拓展性。实验证明,系统提供的训练数据生成方式可以使以Fast Text、Text CNN、LSTM为结构的罪名预测系统的准确率得到提升。系统提供的两种测试数据生成方式可以支持司法深度学习模型的多维度评估。
其他文献
2009年11月25日,温家宝总理主持召开国务院常务会议,研究部署应对气候变化工作,决定到2020年中国控制温室气体排放的行动目标,并提出相应的政策措施和行动。
4甲醛整理甲醛在纺织品上应用,可追溯到1896年Strehlenert用甲醛处理硝化纤维素人造丝以提高其质量。而后,著名的X.Eschher专利(1906年B.P256.47)介绍用甲醛处理染色的再生纤维素以
改革开放40年来,宪法序言主要围绕我国所处的发展阶段以及现阶段党的根本任务、指导思想、基本路线和统一战线等内容进行修改和完善,将党的基本主张制度化和法律化,体现了党
放射治疗是治疗肺癌的重要手段之一,它可以通过不同的放射技术和方法,对局部肿瘤实施最有效的治疗,提高患者的近期生存率,同时也改善了生存质量[1].2003年6月~11月对58例肺癌
呃逆见于脑干、丘脑下部或颅后窝受损的病人,其治疗原则首先解除病因,因中枢功能紊乱所致者可给予氯丙嗪静脉滴注,因激惹所致者可采用强痛刺激、压迫膈神经、胃肠减压和冰刺
社会主义核心价值体系本质上属于社会主义意识形态范畴,是基于社会主义经济基础之上的价值认同体系,也是弘扬人民日常生活主旋律的文化音符,能够为中华民族永续发展凝魂聚气
据报道,日本Nisshinbo Holdings的纺织事业在2009年4—9月出现大幅赤字。目前,该集团正在研究调整其在日本国内生产设备的规模,预期在2009年度完成。
染色织物潮态定形时产生色差的原因,包括轧车压力不匀,烘箱循环风机转速不匀,烘箱结构使织物水分蒸发速率过快,染料和整理剂选择不当等,应针对实际情况采取相应的解决措施。
目的探讨虹膜后粘连的小瞳孔白内障摘除及人工晶体植入手术方法并评价其疗效。方法对29例(33眼)因虹膜炎、外伤等所致虹膜后粘连的小瞳孔白内障患者进行小切口非乳化白内障摘除
采用扫描电子显微镜和X射线衍射仪分析了再生麻纤维的形态和超分子结构。选用直接大红4BS染料对再生麻纤维进行染色,绘制了再生麻纤维染色的吸附等温线,计算了有效吸附容积、染