基于文本表示学习的司法领域文本相似度计算

来源 :湘潭大学 | 被引量 : 0次 | 上传用户:f117f117f117677
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本相似性度量的目标是自动确定一个分数,以指示文本的语义相似性。在司法领域,司法公开化的推进给予了人民群众参与司法的机会,但“类案不同判”的问题随之暴露,已经成为影响司法公信力的主要负面因素之一。相似案例匹配成为解决该问题的重要方式之一,在判案时为法官提供相似案例作为判案参照,以降低审判偏离度,对实现司法公正具有重要意义。同时它作为一种新的法律服务形式,满足了公众的法律咨询诉求,降低不合理的诉讼预期。而如何度量司法领域文本相似性就是相似案例匹配的核心问题。司法领域文本具有很强的特殊性、专业性、严谨性等性质,文本较长且高度程式化,语句结构复杂严谨,蕴含了复杂场景下的主客体之间的法律关系和要件事实,但这些信息细微琐碎且分散于整个法律文本中,且相对冗余。现有的方法难以实现对复杂的法律关系和要件事实的捕捉,缺乏领域知识和概念层次知识的指导,难以表示司法领域文本,存在长文本表征问题。针对以上问题,本文提出了基于文本表示学习的司法领域文本相似度计算。在司法领域文本表示方面,考虑到知识图谱拥有极强的异构信息的表示能力和灵活的建模能力,本文通过对司法领域文本构建案情知识图谱,以表示要件事实和法律关系,不仅避免了司法领域文本中要件事实的冗余性问题,还引入了概念层次的知识和领域知识,丰富了对案情信息的表示。在知识表示方面,提出了案情知识图谱的无标签化和泛化操作,增强知识图谱的运算能力和特征表达能力。在文本相似度计算方面,本文构建了图卷积神经网络和孪生卷积神经网络对案情知识图谱进行特征提取,以学习案情知识图谱的特征表示作为文本特征向量计算司法领域文本之间的相似度,并且提出了Drop_node抑制图卷积神经网络的过拟合。本文采用了“中国法研杯”司法人工智能挑战赛的数据集,在该数据集上的实验结果表明,本文提出的基于文本表示学习的方法在司法领域文本相似度问题上取得了很好的效果。
其他文献
在人工智能+交通的发展背景下,交通实验设备更加智能化,而现有的实验模型设备只能对车辆进行监控,并不具备车牌识别能力,这给交通工程学生在相关领域的研究和实验带来局限。因此,为了满足交通实验教学需求,本文提出在缩微交通环境下构建缩微智能交通平台来进行车牌识别,实验结果表明:该实验平台能对模型小车车牌精准识别,具有较高的工程应用价值。论文主要内容如下:首先,对缩微交通环境下进行车牌识别研究的背景和意义进
当前分布式能源对电网持续地渗透已经不断在为能源互联网的进一步发展完善前置条件。为了让分布式发电能够逐渐全面参与电力交易,国家已对分布式能源交易试点提供了最新政策指导。目前的能源交易已经开始尝试结合区域电网、分布式发电、新兴技术等,但仍然存在诸多不足之处:如未考虑“过网费向负荷侧收取”的政策要求对交易市场中购售双方带来的利益平衡问题;着重于交易模式、策略却忽视交易与安全调度的匹配;缺少对传统交易中心
针对6槽7极单边平板型永磁同步直线电机运行过程中会产生推力波动,导致机床加工精度变差的问题,本文以数控机床使用的永磁同步直线电机(PMLSM)为研究对象,对电机的设计方案与减小电机端部磁阻力等方面进行研究。提出一种将V型磁极与错位法相结合的方法;并且针对辅助齿宽度的大小与位置跟推力波动的关联,提出一种单级凸阶梯型辅助齿结构。(1)运用基本参数建立永磁同步直线电机模型。基于旋转电机的设计公式与流程;
近50年以来,科技发展迅速,人民生活已进入工业4.0时代。为了满足对电能的需求,电力电子技术的未来研究方向将朝着更高频化、模块化、集成化的方向发展。一方面,谐振变换器因为具有软开关特性,能够良好的抗开关短路与断路功能,在高频化、高功率密度的开关电源中具有重大作用,其中,LCC谐振变换器重点应用在恒流源与恒流驱动、无线直流充电等领域中。另一方面,开关电源中由于其分立的无源元件过多,势必会占用大量空间
随着信息化时代高速发展,人们对图像质量的要求日益增加。图像超分辨率(Super-Resolution,SR)重建旨在通过计算机软件方式从低分辨率图像中恢复自然、清晰的纹理,重建出画质优良的高分辨率图像。近年来,得益于深度学习技术的应用,图像SR重建取得显著进展,在消费与医疗、公共安全与军事等相关专业领域都有着广泛的应用。针对目前图像SR重建算法训练速度缓慢、网络模型不稳定以及对高频信息处理模糊等问
行人重识别是在跨监控设备下对给定行人图像进行目标检索的技术,是近期计算机视觉领域的一个关键问题,普遍应用于智能安防、人机交互、电子商务等领域。由于监控下的行人图像存在视角差异、姿势变化、物体遮挡等问题,这要求行人重识别模型能够捕捉到有效的内容来进行行人的判别。利用卷积神经网络能够提取有效的行人图像特性,但图像全局显著信息只关注到图像的整体情况,易受外界复杂环境等无关因素的干扰,如何通过局部信息增强
进入二十一世纪,我国机动车的数量激增,智能交通系统(ITS)在人们日常生活中起到越来越大的作用。作为智能交通网络系统的重要组成部分,车辆自组织网络(VANETs)的推广为人们智慧出行提供了技术支持。但是这也带来了新的问题,车辆交互过程中,产生了大量的数据,这些数据中包含的隐私数据容易受到攻击者恶意破坏和非法访问,导致诸如用户真实身份、生活习惯等信息的泄露。本文围绕VANETs的隐私保护进行研究,具
铁路是我国的重大基础设施,我国已成为电气化铁路第一运营大国。在铁路中,以负序为主的电能质量问题一直备受关注,牵引负荷的峰值功率是造成这类问题的重要原因之一,同时牵引负荷的峰值功率对于铁路的经济效益也有着重要的影响。本文围绕牵引负荷峰值功率过大的问题,在电气化铁路系统中引入超级电容储能对牵引负荷进行削峰填谷,以降低牵引负荷的最大需量和提高电气化铁路牵引变压器的容量利用率,从而达到提高铁路部门经济效益
随着计算机行业的快速发展,人们获得的信息和采集的数据不断增加。聚类算法作为数据挖掘的一种常用工具,可以有效地分析数据之间的关系,亦可高效地处理海量数据。本文对文本聚类算法进行深入研究,主要包括文本距离计算方法和聚类划分算法。过去的工作大多数使用Word2vec实现文本向量化,没有体现词的多层特性,不能解决一词多义的问题;针对这些问题,本文采用ALBERT处理文本向量化,文本向量可以更好地表示文本特
新型冠状病毒肺炎(COVID-19)的肆意蔓延对全世界人民的生命和财产安全带来了巨大威胁。胸部CT被认为是新冠肺炎诊断和后续治疗的有效工具之一。然而人工阅片费时费力,而且高度依赖医生的临床经验。深度学习作为一门新兴的方法,能有效地加快CT图像新冠肺炎诊断效率,因此受到越来越多的关注。但现有的可用于训练的新冠肺炎诊断数据集数量少,数据集中样本类别的多样性有限,且新冠肺炎CT图像的样本数量远小于正常样