面向中医药临床大数据共享的隐私保护方法研究

来源 :南京中医药大学 | 被引量 : 0次 | 上传用户:bblp520a
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
背景:随着信息技术的发展,医院的临床病历数据也从传统的纸质存储逐渐转向为电子化方式存储。医疗数据的电子化存储数据包含健康数据、遗传病史、手机号码、身份证号码等病人的个人敏感信息,以及重要的中医处方等敏感信息。这些敏感数据不仅需要记录和存储病人的医疗信息,而且这些信息还会开放给第三方(如高校、科研单位、研究机构等),第三方会对这些数据搜集、存储、管理、分析、挖掘和网络传输。在中医药临床医疗大数据的挖掘、分析以及在网络共享和开放的过程中,存在着较大的个人隐私数据泄露的风险和问题。针对这些风险和问题,需要有一套适用于中医药临床大数据的隐私保护方案。目标:在中医药临床大数据的电子信息在传输和共享环节,设计深度学习的算法,来动态识别中医药临床医疗大数据中的个人敏感信息,提升识别效率和精度。设计适用于医疗场景下的数据加密算法,同时结合属性加密和结构授权的隐私保护方案对中医药临床敏感信息进行高效的隐私保护,避免敏感信息的泄露。设计基于同态加密和零知识证明的算法,提供中医药临床大数据在各个中医药医疗机构的共享访问机制,满足医疗数据共享访问的安全性和可追溯性。本研究为中医药临床大数据共享的各个环节提供安全、高效的数据来源,为中医药大数据平台下的海量个人隐私数据的高效和安全传输提供服务和支持。方法:在中医药临床大数据共享的各个环节,利用现代信息技术的方法,分析敏感数据的隐私保护机制,采用以下研究方法:1)在结构化的临床医疗文本数据遵循标准语法和语义的基础之上,对该数据进行清洗,转换,描述和特征提取等预处理,采用自然语言处理方法,使用word2vec的CBOW模型对中医药医疗文本格式的大语料库进行训练得出对应的词向量,把相似度较高的词向量添加到医疗敏感信息词典中,对时序文本数据进行建模,设计出基于深度学习和Bi-LSTLM训练模型的算法;同时引入CRF条件随机场统计概率决策模型,基于隐含状态建模,学习状态序列之间的关系,得到最佳的观测值序列,用于医疗文本敏感词语序列标记的概率决策和统计。在Bi-LSTM的输出层接入CRF层来做句子级别的标签预测,提升中医药医疗文本数据中敏感词语信息预测的准确率。2)研究中医药大数据的账号口令管理方案、登录认证管理方案和权限授权管理方案。对账号的安全管理、口令的安全管理、口令的加密算法流程和口令的攻击及防攻击进行设计和方案分析,通过对口令加密算法PBKDF2算法和AES128算法进行对比,选择适用于中医药大数据平台账号口令的加密算法。针对中医药大数据临床医疗文本类数据的结构化的特征,对医疗文本数据进行形式化的语言描述和分析,把患者的临床医疗数据分为敏感数据向量和非敏感数据向量,提炼出敏感数据的属性特征,设计基于属性的敏感数据和特定密文哈希的内积加密算法,同时根据医疗应用场景和医疗数据的特点,选择不同的参数和数据量,对该算法进行研究和对比分析。3)结构化特征的医疗数据由冗余的结构化信息和叶子节点的医疗数据信息组成,采用提取主干结构树法对结构化的数据进行去冗余处理,并对此主干结构树进行矩阵转换,生成主干结构树对应的存储矩阵;对叶节点的内容进行区间编码以便于数据的查询,使得结构信息和节点内容分离式存储。在云端和雾节点的相互配合下,设计一种基于属性加密及XML结构授权相结合的医疗数据保护方案,通过授权矩阵对共享医疗文档进行结构授权,从而实现对医疗数据进行细粒度的访问。4)区块链核心技术之一的同态加密技术特点:在明文上操作然后加密和直接在密文上操作,得到的结果是一样的;可以实现在没有秘钥的情况下只存储和传输加密结果,而不获取具体的数据信息,从而达到支持对加密数据进行处理而不泄露任何原始信息的效果。基于此特点设计提出一种基于paillier加法的同态加密和基于范围的零知识证明算法,用于各个中医药数据平台的医疗数据的共享访问,同时保障医疗数据的安全性和满足数据的可追溯性;同时针对高频、小额的医疗数据访问,设计一种离链通道安全隐私保护方案,来保证交易双方在医疗区块链的链下交易的安全,以提升医疗数据的访问效率。结果:1)挖掘中国某市中西医结合医院的部分科室临床医疗数据,通过对中医药大数据医疗文本信息进行预处理,通过word2vec把自然语言中的字词转为计算机的稠密向量,建立医疗敏感词向量和词典库,对医疗特征的敏感数据基于Bi-LSTLM+CRF进行建模,选取其中的5000条医疗数据进行实验测试,发现医疗敏感实体类型中的性别、身份证号码、手机号码、姓名和关联地址这些具有明显特征的词向量,相较于普通的变化多样性词向量具备更高的识别率。2)设计并实现一种基于属性的内积加密的数据脱敏算法,把批量的中医药临床大数据中的敏感信息分割为不同长度数据颗粒度,与特定密文的哈希进行内积处理。在面对中医药大数据平台的海量数据加密的场景,与传统的哈希加密算法相比,本算法具备灵活的数据颗粒度、策略和高效的性能表现,适用于海量的中医药临床数据脱敏。3)设计并实现一种基于结构授权及属性加密相结合的临床医疗数据保护方案。借助于云端和雾节点,基于属性加密算法实现细粒度的访问控制。根据医疗数据的半结构特征,采用提取主干结构树法去除结构冗余,使用起止区间编码来表示节点信息,共同完成了对数据的隐私保护。安全证明及结果表明,此属性加密及结构授权的数据保护方案具有高安全、低存储的性能,适用于云存储背景的共享环境下中医药临床医疗数据高等级安全保护。4)设计并实现基于环签名的范围零知识证明和基于paillier加法同态加密的区块链安全与隐私保护方案。实现中医药临床医疗中的数据安全传输和基于属性的权限访问,提高医疗数据的透明性、可追溯性,满足各个中医药医疗平台之间的患者医疗数据的共享访问诉求,同时保障了个人医疗敏感数据的安全隐私。在区块链对临床医疗数据存储场景下,各个中医院和医保中心可以对患者医疗数据进行共享访问,同时本方案和算法具备良好的访问性能。结论:本研究在中医药临床大数据共享流程的各个环节,分别设计对应的算法和方案对敏感医疗数据进行识别、加密、共享访问和隐私保护,为中医药临床大数据的共享提供高性能和高等级隐私安全保护。
其他文献
社交网络用户的规模日益增加,数以亿计的信息在网站交互和保存。共享信息在促进经济和文化领域蓬勃发展的同时,也带来了信息泄露的风险,尤其是用户的个人身份信息泄露的风险。这可能会导致许多负面影响,如网络欺凌、身份盗窃和失业。在社交网络盛行的今天,如果隐私泄露与社交网络的交互有显著相关性,这极可能成为一种新型的公共信息安全危害。因此,高昂的信息泄露成本和严重的泄露后果使得评估社交网络用户的隐私评价变得更加
<正>心理健康教育是学前教育的重要内容,“家园共育”是幼儿园开展心理健康教育的重要方式。那么,如何通过家长与幼儿园的合作,有效开展幼儿心理健康教育工作,为幼儿的心理健康保驾护航呢?一、开展教育培训,重视心理健康
期刊
针对生物地理学优化算法在求解复杂作业车间调度问题时存在的问题,提出了一种改进差分进化生物地理学优化算法.通过将差分进化算法的搜索性与生物地理学优化算法的利用性有效的结合,同时采用精英保留机制保留适应度较高的个体,并且引入惯性权重策略调节变异操作在混合迁移操作中所占的比重以提高算法的全局搜索能力,然后增加了小概率扰动以防止算法随着迭代的进行陷入局部最优解.最后使用不同测试函数和作业车间调度问题进行实
在"互联网+"技术逐渐全面深入生活的时代,民办高校的线上教学也进入了全面信息化发展的阶段,极大地丰富着资格考证的教学资源。虽然当前线上教学的整体构架已经向贴合职业岗位目标的方向进行培养,但是,仍然存在着线上课程设置与资格考证的要求有差距、学生缺乏资格考证线上学习的明确目标、资格考证的网络教学资源有待整合的问题,极大地影响着线上学习和资格考证的参与度。因此,本文从"互联网+"背景下职业资格证书考试的
数字经济快速发展,非遗搭乘数字经济的快车向新业态转型。在乡村文化振兴中,非遗能够发挥促进农民就业、提升农民文化素养、增加农民收入、繁荣农村产业等多种功能,还能为乡村文化振兴起到标杆示范作用。面对非遗推动乡村文化振兴战略的新要求,数字经济的崛起或为其提供了解决新思路、发展新道路。
随着物联网应用技术的快速发展,室内定位受到越来越多的关注。由于室内环境的复杂性,现有卫星类定位技术无法满足高精度室内定位需求。为解决上述问题,本文开展了基于多源信息融合与机器学习的室内定位技术研究。论文主要工作如下:(1)研究了室内定位技术的理论原理。首先介绍基于测距的无线定位技术,然后描述了指纹匹配算法和以及多源融合理论,为后续的研究工作打下理论基础。(2)提出了基于拉普拉斯金字塔与像素级融合的
在工业化时代,技术的迅猛发展促进了社会进步,但也给环境带来了一定的伤害。高碳能源大量消耗的同时,人们认识到了绿色低碳转型发展的重要性,作为一种新型核算方式碳会计应运而生。碳会计体系中,信息的披露是重要一环。本文以我国上市公司为例,对碳会计信息披露问题进行研究,为提高碳会计信息披露水平贡献力量。
期刊