文本文档中敏感信息发现及脱敏方法研究

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:canyang419
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的普及,网络信息不仅总量大幅增长,其传播渠道也在逐渐拓宽。渠道的多元化,使得信息的传播由单向转变为多向,并导致在传播过程中更多敏感信息公开。这些敏感信息的泄露,可能会影响到个人隐私、财产、企业信息,甚至国家的安全。不同的领域对于“敏感信息”的界定相距甚远,这对敏感信息的识别带来了一定的障碍。本文以司法信息公开为场景,研究了司法实践中,关于敏感信息公开的识别和脱敏问题。在司法实践过程中,裁判文书内敏感信息的检测和脱敏,很大程度上仍然依赖人工查核。但在面对海量的信息时,采用人工的方法耗时耗力,并不可行。为了克服该方案的缺点,一种更可行的方法是使用计算机来提高识别效率。然而,计算机在识别敏感信息方面,还存在一些难点,潜在敏感信息的复杂性,对主体的依赖性难以发现等。针对上述问题,本文探索了以下方案:借助神经网络提取特征的能力,通过结合上下文信息,以实现对潜在敏感信息的识别和对主体依赖性的发现。此外,根据主体的敏感性,可实现对敏感信息的识别,并设计策略,对敏感信息进行脱敏处理。本文的工作得到了国家重点研发计划项目“内外贯通的审判执行与诉讼服务协同支撑技术研究”(2018YFC0831300)的支持。论文主要的工作包括:(1)针对潜在敏感信息的复杂性以及主体依赖性难以发现的问题,提出了一种基于LSTM网络的个人属性信息识别模型。该方法基于Lattice方式输入,通过添加与主体的相对位置信息,结合字与词的语义信息对输入进行上下文特征提取。在语义理解的基础上识别信息,并对从属关系进行判断。实验结果显示,该方法能够有效地对个人属性信息进行提取。(2)针对LSTM网络自身的局限性,提出了基于BERT的个人属性信息识别模型。首先通过模型的预训练,获取大量的外部知识,构建更加准确的语义表示;随后通过对预训练模型的任务改造,在结合外部知识与准确上下文信息的基础上,对潜在敏感信息与主体依赖进行识别。实验结果显示,该方法比基于LSTM模型精确率提高了2%。此外,根据信息的自身特征和信息之间的关联性,设计了对应的脱敏策略。结合上述模型与方法,本文最终提出了一种敏感信息的识别与脱敏方法。为了验证该方法的有效性,本文利用裁判文书数据集进行了实验。实验结果表明,该方法可行,且相比人工方法更加高效。
其他文献
冲击地压是煤炭开采伴生的主要动力灾害之一,进行震源准确定位对冲击地压的监测预警、冲击危险性评定、防灾和减灾工作具有重要的现实意义。对震源定位的研究大多基于波速模型的假设,未考虑地质结构的复杂性对微震波传播规律的影响,常导致定位误差难以接受。本文通过理论和试验相结合的方式对微震信号在层状岩体中的传播规律进行了研究,得出以下几个主要结论:(1)基于BP神经网络技术预测岩石波速,将波速模型中各岩层的力学
综采工作面开切眼是煤矿安全生产的重要组成部分,主要用于安装与工作面回采相关的设备。确保开切眼的稳定性及安全,对于综采工作面内的设备以及工作面的回采具有重要的意义。开切眼由于其断面跨度大,容易引发顶板冒落、帮部挤出、底板鼓出等问题,导致开切眼在服务期间需要多次重复维修,影响工作面的顺利回采、井下设备的正常工作和工作人员的安全。本文以南阳坡矿5#307盘区8702工作面大跨度开切眼为研究对象,采用现场
随着十九大报告乡村振兴这个新时期重大战略布署的提出,乡村人居环境的活力再生已成为当前学术界的重大共识,乡村人居环境整治的转型优化也已成为学术研究的必要探索方向。植物是所有景观要素中唯一具有生命特征的要素,其独特的自然性在乡村人居环境中占据统筹地位,乡村植物景观优化对营造美丽宜居的乡村人居环境必不可少。镇江五塘村山水林田资源丰富,自然本底优良,水乡风韵明显,带有浓重的江南水乡特色。因此本文选取五塘村
雷公藤甲素(TP)是从卫矛科雷公藤属中分离出来的一种环氧二萜内酯化合物,其中TP的抗肿瘤作用引起了广泛关注,但是由于TP水溶性较差,治疗窗窄和毒副作用较大从而限制了其在临床上的应用和开发。基于此本文通过计算机软件辅助药物设计并合成具有与NQO1结合能较高的醌丙酸结构TP衍生物。建立肝癌细胞和动物模型,评价其抗肝癌活性及对肝肾等组织毒性,检测其药物代谢动力学特征,验证其NQO1激活途径,以阐明其作用
低秩矩阵分解(或低秩矩阵重构)作为一种高维数据处理工具,被广泛应用在计算机视觉,机器学习,图像处理等领域中。然而在绝大部分的低秩矩阵重构模型中,对原始图像的秩未进行充分考虑,一般通过对分解模型中低秩矩阵进行秩函数极小化来实现对原始图像的逼近,由于秩函数极小化得不到原始图像真实的秩,因此分解得到的低秩矩阵部分对原始图像的逼近能力有限,另外,容易将一些背景的边缘纹理部分分解到稀疏矩阵中,影响模型在去噪
在全球气候变暖、人口增加和淡水资源紧张的多重压力下,森林水源涵养功能起到截留、存储和调控降雨的作用。已有研究多应用水量平衡等模型对大尺度水源涵养量进行空间估算,但是模型估算结果缺乏大量观测数据的验证。因此,本文首先基于综合蓄水能力法,利用Meta分析方法收集国内外文献资料中中国森林的冠层截留、枯落物持水、土壤蓄水和森林水源涵养的各站点的相关参数和影响因子;然后基于站点数据探究森林林冠截留能力、枯落
高血压是一种以体循环动脉压升高为主要特征的临床综合征,容易引起脑、心、肾等靶器官损害。高血压发病率高,根治能力低,容易反复发作,严重降低人们生活品质及劳动能力。目前,在高血压的临床治疗中主要使用的是西药,在我国也有一些中药复方用于高血压的临床治疗。薄膜包衣脉君安片就是其中重要的降压药之一。薄膜包衣脉君安片由中药钩藤、葛根,氢氯噻嗪(980:1:366,w/w/w)及辅料混合成型。本文在脉君安片(M
近20年来,随着非物质文化遗产保护项目不断推进,学者们逐渐关注壮族与布依族的民族服饰,并逐步展开相关研究,但是这些研究多缺乏实证的田野调查。本文将具有地方辨识度的壮族和布依族共有的服装——箔绲作为研究主体,运用艺术人类学的研究方法,从物的生命史的研究角度出发,利用田野调查所得材料对箔绲的制作技艺和形制进行梳理,以及对箔绲商贩在南盘江中下游两岸街场行走的过程进行观察,追寻箔绲在区域内的活动和生存状况
太赫兹通信是未来空间信息高速传输的关键技术手段,具有大容量、传输速率高、抗干扰能力强、安全性好等优点。如何实现对太赫兹波进行高效、快速的调制成为近年来各个国家研究的热点。将人工微结构和半导体、二维电子气、超导体、石墨烯等材料结合起来,实现对太赫兹波的动态操控为THz调制器的发展带来了巨大的机遇。在此基础上,本文将结合人工微结构与VO_2、HEMT、太赫兹肖特基二极管来实现对太赫兹波的动态操控,设计
加工方式和加工条件会影响淀粉的结构和消化。所以研究加工条件和加工方式对淀粉的凝胶化和消化性的影响非常重要。本课题主要以小麦淀粉为原料,研究不同加热温度和时间对宽水分含量的淀粉样品的结构的影响,相似凝胶化程度(DG)淀粉的结构和消化性的影响,以及不同加工方式(水热处理和超高压处理)对淀粉结构的影响。研究结果如下:将淀粉和水以不同比例混合,分别在不同温度和时间下加热,研究了淀粉的凝胶化行为。通过DSC