基于反绎学习的盗窃案件量刑情节识别方法研究

来源 :贵州大学 | 被引量 : 0次 | 上传用户:sinosteelpower
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
量刑情节是指法院对罪犯审判时,依据的有关罪犯的身份信息与犯罪事实。量刑情节识别任务主要是指利用计算机技术从半结构化的裁判文书中识别出罪犯的量刑情节。作为司法智能化研究中的重要底层任务,识别出来的量刑情节可以为其他司法智能化任务(如:判决预测等)提供信息参考。目前,司法领域数据由于专业性高、逻辑性强,存在标注数据匮乏、标注质量差导致量刑情节识别效果较差的问题。此外,现有量刑情节识别方法研究过于依赖刑期误差,未考虑标签本身识别的准确性,不够关注识别效果差的情节,也未能利用到情节间存在的层次信息。因此,本文将量刑情节识别任务与反绎学习方法相结合,在此基础上,分别提出了基于置信学习和基于层次网络的盗窃案件量刑情节反绎识别方法。由于在各类刑事案由中,盗窃案占比最高,本文以盗窃案件量刑情节为切入点,识别裁判文书中描述的量刑情节。主要研究工作与成果有:(1)针对司法领域标注数据少、标注质量低导致量刑情节识别效果差和现有方法未考虑标签本身识别的准确性,不够关注识别效果差的情节的问题,本文提出了基于置信学习的盗窃案件量刑情节反绎识别方法。先使用少量标注数据进行预训练,再使用大量无标注数据生成伪标签,构建司法审判逻辑知识库(包括刑期计算模块与一致性推导模块),通过反绎推理来修正伪标签中存在的错误情节,将修正后的数据重新训练模型,从而解决缺乏标注数据对模型训练的影响。此外,提出一种能够表征量刑情节概率离散程度的置信学习算法,评估模型对于每个量刑情节识别的置信度,提高反绎推理对识别性能较差的情节的关注度,再根据最大一致性优化原则,提高低置信度情节的识别能力,从而解决现有研究方法过于依赖刑期计算准确度、未考虑标签正确性、不够关注识别效果差的情节的问题。实验表明,本文提出的量刑情节识别方法的Macro_F1值和Micro_F1值比现有方法分别提高了6.03%和5.13%。(2)针对现有方法无法利用到情节间层次信息的问题,本文提出了基于层次网络的盗窃案件量刑情节反绎识别方法。改进原有的扁平化网络结构,利用情节间的层次关系构建层次网络识别模型,通过融合不同层次的量刑情节语义信息,使用融合层次惩戒机制的置信学习算法来提高对违背层次关系的情节的关注度,最后根据基于层次逻辑和司法审判逻辑知识库的最大一致性优化原则,使得模型识别结果符合情节的层次规则,以提高反绎修正后模型重训练的识别准确性。实验结果表明,本文提出的量刑情节识别方法的Macro_F1值和Micro_F1值比现有方法分别提高了10.08%和2.52%。
其他文献
推进农民合作社质量提升,加大对运行规范的农民合作社扶持力度,新时代在农民合作社示范社培育上到了从数量型向质量型的转变,到了全面提质、综合增效的新阶段。为了进一步加强示范社建设工作,创新示范社培育机制,发挥好示范社的典型引领作用,应该加强人员培训、完善考评措施、创新项目扶持、建立统筹机制,促进示范社建设迈向更高的台阶,充分发挥典型示范社在农民专业合作社整体质量提升中的典型示范、典型引领作用。
期刊
教师模型全体隐私聚合(Private Aggregation of Teacher Ensembles,PATE)方案是机器学习领域内针对隐私保护的重要框架,但其存在由数据独立存储及数据划分导致的教师模型分类准确率低的问题。联邦学习是一种保护数据隐私的机器学习框架,各参与方以数据不出本地为前提联合训练一个联邦模型,能解决PATE中存在的模型分类准确率低的问题。因此,本文结合联邦学习的思想以优化PA
学位
近年来,随着数字经济时代的来临,“信息过载”日益凸显。为了解决这个问题,个性化推荐系统得到了飞速的发展。在目前的推荐系统中,研究人员通常从用户和项目的直接交互出发,依赖于神经网络或图神经网络等非线性推理技术挖掘用户和项目的深层嵌入表示。然而,这些研究忽略了对间接交互进行直接建模的重要性,导致无法较好地捕捉隐含关系中蕴含的交互信息,从而降低了推荐系统的性能和可解释性。为了充分利用隐含关系及其交互信息
学位
“三农”问题一直是我国高度关注的话题。自乡村振兴战略提出以来,各方社会力量切身投入于农村建设,并取得了卓越成果。其中,农民专业合作社发挥了举足轻重的作用。基于此,文章对部分地区农民专业合作社发展状况进行研究、整理和分析,阐述了目前农民专业合作社发展存在的问题,并从服务带动、管理规范、品牌建设、融资能力、人才引进等多个角度提出了农民专业合作社发展优化策略,用以促进农民专业合作社高质量发展,为相关工作
期刊
对抗样本攻击是一种影响人脸识别系统安全性和鲁棒性的攻击手段。与传统对抗样本生成方法相比,基于生成对抗网络(Generative Adversarial Networks,GAN)的对抗样本生成方法具有生成速度快、可承载的计算量大等优势。然而,现有基于GAN的人脸对抗样本生成方法仍存在训练不稳定、生成对抗样本质量较低以及针对亚洲人脸的研究较少的问题。因此,本文通过梯度惩罚项优化生成对抗网络和训练目标
学位
在分布式环境下实现数据安全共享一直是研究热点,区块链以分布式共享全局账本的形式存储交易数据,为数据安全共享提供了平台支撑。然而,区块链上的交易信息对网络中全部节点公开透明,对用户隐私构成威胁。现有的区块链数据共享方案在进行隐私保护的同时可用性较低,数据共享难以实现隐私保护和可用性之间的平衡,有效实现区块链数据访问权限的动态调整是一个挑战性问题,这也是本文拟研究的问题。具体地,本文结合区块链技术、代
学位
发生在肝脏部位的肿瘤病变具有较高的致死率,及早从腹部CT图像中分割出肝脏和肝脏肿瘤是辅助医生对患者进行诊疗的关键。然而,人工分割耗时长,效率低;且CT图像具有对比度低、器官组织间灰度值较为相似和肝脏肿瘤形状大小多变等特点,使得快速准确分割出肝脏和肝脏肿瘤仍是一项挑战性的任务。随着深度学习技术在计算机视觉任务中表现优异,在医学图像分割领域得到广泛研究与应用。因此,本文使用深度学习技术来实现肝脏和肝脏
学位
为响应高校对于数据科学课程学习和实践训练的需求,数据科学在线实验平台应运而生。然而,当大量学生同时使用平台进行实验时,如果运维人员无法及时解决出现的资源紧缺、实验耗时长和平台崩溃等性能问题,将严重影响用户使用体验和实验教学进度。目前,各类应用平台的性能瓶颈问题的发现和解决逐渐受到大众的重视。在人工分析具有局限性的情况下,搭建实验平台的监控系统以掌握性能状况显得十分重要。但是大部分的性能监控工具主要
学位
近年来,机器学习算法迅速发展并在众多领域取得成功应用,其中BP神经网络作为经典的前馈神经网络算法,其具有较优的泛化和容错能力、以及非线性映射能力,因此在分类、预测、图像处理和模式识别等领域都取得了不错的成绩。由于BP神经网络工作的核心是BP算法,同时网络对初始时的连接权值和偏置具有极强的依赖性,所以其存在收敛速度慢和易陷入局部最优等问题,进而导致网络的性能受到了严重影响。群智能优化算法具有较强的全
学位
随着电网中业务应用类型越发复杂,多源电网业务信息呈现出容量过大而价值密度低的特点,电网调度业务流程日趋繁琐。在此环境下,传统经验型调度模式工作效率低、协同性不强,难以满足现代电网调度运行需求。因此,提出了基于人工智能技术、依赖电力大数据驱动的调度决策支撑技术,通过智慧人机交互方法智能识别、判断、提取电力关键调度业务信息,并将不同的区域业务汇总于统一的电网智能调度平台。在平台的支撑下,有效简化并解决
期刊