政务数据安全分类和隐私数据识别算法研究与实现

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:shilei881222
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着电子政务的发展,各级政府为了提高政务数据的利用率和共享程度,相继建立了自己的政务信息发布平台。在这些平台中,隐私数据识别和数据安全分类主要采用的仍然是人工指定的方法,效率不高。近年来基于深度学习的自然语言处理算法被提出,并在各个领域获得了不错的效果。因此,本文针对政务数据的特点展开研究,在现有的算法的基础上加以改进,使用深度学习的方法以提高隐私数据识别和数据安全分类的效率和准确率。论文的主要成果如下:(1)针对隐私数据识别问题,本文设计了一种基于规则和命名实体识别的隐私数据识别模型,分别用来识别文本中有明确规则和没有明确规则的隐私数据项。在现今通用的命名实体识别算法的基础上,引入注意力机制提取文本的全局信息,进一步提高模型的准确率。此外,本文中使用双向门控循环单元替代原模型中的双向长短期记忆网络,以减少模型中的参数,从而缩短模型的训练时间。实验结果证明,本文提出的算法可以有效解决隐私数据识别问题。(2)针对数据安全分类问题,本文设计了一种基于信息熵的数据安全分类模型。现今文本分类模型的输入大多为文本中对应的词向量,针对数据安全分类问题,这样的特征提取方式效果较差。本文中设计的模型使用基于平均自信息和互信息隐私度量方法得到隐私度量特征,使用Doc2Vec文本向量化技术得到每一段文本特征,并将两部分特征融合后输入到文本分类模型中进行数据安全分类。实验结果证明,将融合特征作为分类模型的输入,分类结果明显优于词向量作为输入的分类结果。本文设计的隐私数据识别和数据安全分类模型可以根据不同的应用环境,设定不同的隐私评价项,并且考虑到文本的整体语义信息对数据安全类别的影响。该模型能够提高政务数据中隐私数据识别和数据安全分类的效率和准确率,是政务数据开放共享中的关键一环,可以在一定程度上减轻隐私的泄露程度。
其他文献
中国当代写实油画发展至今已经历了无数个时代的洗礼,在漫长的社会变革中,写实油画肖像也逐渐出现在大众的视野,并深得观众喜爱,这与中国当代写实油画肖像中多元情态表现有着密不可分的重要关系。当代写实油画肖像艺术在中国这片艺术热土上持续发光发热,在漫长的发展过程中结合我国特有的本土特征与中华民族优秀文化,从而形成具有中国时代特色的写实油画肖像中多元情态表现,并为中国当代写实油画发展提供了重要的保障。本文通
本论文通过访谈资料的展示,呈现出福州市已婚青年在为人夫与为人妻的过程中所面临的角色期望的冲突,反映了性别观念对福州市青年婚姻家庭角色实践的影响,展现了当代青年在婚
随着无线传感器网络(WSN)和物联网(IoT)等新兴技术的发展,室内定位系统(IPS)引起了全世界的关注和研究。随着物联网的逐渐成熟,对IPS的要求也不断提高。可见光定位(VLP)与射频(RF)、WiFi和蓝牙相比,具有高精度、免许可证、无电磁干扰和低成本等优点,因此在IPS中引起了了广泛关注。但诸多VLP解决方案都是基于个体的自我定位,尚未实现从监控系统侧实时识别多个目标物体的位置。例如,在无人
在2016年全国老干部工作先进集体和先进工作者表彰大会上,习近平总书记指出:“老干部工作承担着党中央关心爱护老干部的重要任务,是一项需要付出、需要奉献的重要工作”。习总书记的这一重要指示,充分体现了党中央对老干部工作的高度重视,为新形势下做好老干部工作指明了前进的方向。同年,中央办公厅、国务院办公厅印发了《关于进一步加强和改进离退休干部工作的意见》,第一次提出了“积极稳妥推进离退休干部工作转型发展
本报告在翻译英国当代小说家亚历山大·麦考·史密斯的传记性随笔集《奥登能为你做什么》前三章基础上探讨了该类文本的英汉翻译策略问题。史密斯在书中从个人视角讲述自己同现代诗人W.H.奥登的交往经历,以及自己阅读奥登诗歌的所思、所感、所悟,其间不时结合奥登代表作片段对其诗学思想和艺术风格进行阐释与评价。该书属典型的传记类英文随笔。该书前三章主要讲述奥登的生平与诗学历程以及作者对奥登诗学历程的反思及其启示。
三岛由纪夫是日本当代小说家,出生于日本东京,毕业于东京帝国大学(今东京大学)。三岛由纪夫是日本二战后文坛的代表作家之一,曾三次提名诺贝尔文学奖。他的作品极具独特的艺术性与思想性,为广大读者所喜爱。在三岛的文学作品中,死亡、阴暗、同性爱是经常出现的要素,也是中日的三岛文学研究者探索的热点。但《潮骚》作为三岛的代表作之一,与三岛一贯的创作风格大相径庭,展现了以爱、活力与健康为主题的创作理念,是三岛的作
文化活动可以加强人们对中国文化的了解,也可以提高汉语教师及所在学校在当地的影响力,吸引更多的人来学汉语。蒙古国对汉语教师志愿者在举办文化活动方面一直有着很高的要求,蒙古的汉语教师在这一方面做的也较好。拉斯韦尔提出了“5W”文化传播理论,即传播者、传播的目标受众、传播内容、传播媒介、传播效果,这恰好提供了调查研究汉语教师志愿者举办文化活动及中国文化介绍与传播的框架。基于拉斯韦尔的“5W”理论,对在蒙
镍矿、精铁矿等易流态化货物在船舶装载和运输过程中发生流态化是威胁海上货物运输安全的重大隐患之一。一旦货物在货舱中发生流态化,即可能导致运载船舶发生倾斜甚至倾覆、沉没,进而造成人命伤亡及财产损失。影响船载易流态化货物安全运输的风险因素众多,在货物、船舶、人员和环境等多方面因素的作用下,船载易流态化货物的运输风险管控较运输其他固体散装货物显得更为严谨和复杂。如何有针对性和有成效的实现对船载易流态化货物
无服务器计算是一种新兴的云计算模型。该模型中,应用被拆分成多个细粒度的函数并被上传至平台,用户仅需要关心代码的业务逻辑,而无需担心服务器的配置、维护、更新和扩展等运维问题。无服务器云计算平台采用按需结构,即平台仅在服务请求或事件触发时加载函数,并且会在运行时删除空闲的函数实例。虽然这种结构能够减少平台资源负载,但当函数实例被删除后,再次调用时会产生严重的延迟,即出现冷启动。无服务器云计算平台的冷启
根瘤是结瘤植物根系与一些土壤细菌(特别是固氮菌)相互作用而建立的共生体,是二者共生固氮的主要场所,木本结瘤植物也因此成为改善林地土壤、绿化荒地和促进生态平衡的重要树种。根瘤结构和代谢(包括根瘤分泌物)的特异性可能会使得根瘤表面以及根瘤内微生物群落结构发生改变、并有别于土壤和根际微生物群落结构;同时,根瘤细菌的多样性不仅影响着固氮菌的分离,也可能影响着固氮菌功能的发挥。为了解木本结瘤植物根瘤细菌的多