论文部分内容阅读
背景:随着信息技术的发展,医院的临床病历数据也从传统的纸质存储逐渐转向为电子化方式存储。医疗数据的电子化存储数据包含健康数据、遗传病史、手机号码、身份证号码等病人的个人敏感信息,以及重要的中医处方等敏感信息。这些敏感数据不仅需要记录和存储病人的医疗信息,而且这些信息还会开放给第三方(如高校、科研单位、研究机构等),第三方会对这些数据搜集、存储、管理、分析、挖掘和网络传输。在中医药临床医疗大数据的挖掘、分析以及在网络共享和开放的过程中,存在着较大的个人隐私数据泄露的风险和问题。针对这些风险和问题,需要有一套适用于中医药临床大数据的隐私保护方案。目标:在中医药临床大数据的电子信息在传输和共享环节,设计深度学习的算法,来动态识别中医药临床医疗大数据中的个人敏感信息,提升识别效率和精度。设计适用于医疗场景下的数据加密算法,同时结合属性加密和结构授权的隐私保护方案对中医药临床敏感信息进行高效的隐私保护,避免敏感信息的泄露。设计基于同态加密和零知识证明的算法,提供中医药临床大数据在各个中医药医疗机构的共享访问机制,满足医疗数据共享访问的安全性和可追溯性。本研究为中医药临床大数据共享的各个环节提供安全、高效的数据来源,为中医药大数据平台下的海量个人隐私数据的高效和安全传输提供服务和支持。方法:在中医药临床大数据共享的各个环节,利用现代信息技术的方法,分析敏感数据的隐私保护机制,采用以下研究方法:1)在结构化的临床医疗文本数据遵循标准语法和语义的基础之上,对该数据进行清洗,转换,描述和特征提取等预处理,采用自然语言处理方法,使用word2vec的CBOW模型对中医药医疗文本格式的大语料库进行训练得出对应的词向量,把相似度较高的词向量添加到医疗敏感信息词典中,对时序文本数据进行建模,设计出基于深度学习和Bi-LSTLM训练模型的算法;同时引入CRF条件随机场统计概率决策模型,基于隐含状态建模,学习状态序列之间的关系,得到最佳的观测值序列,用于医疗文本敏感词语序列标记的概率决策和统计。在Bi-LSTM的输出层接入CRF层来做句子级别的标签预测,提升中医药医疗文本数据中敏感词语信息预测的准确率。2)研究中医药大数据的账号口令管理方案、登录认证管理方案和权限授权管理方案。对账号的安全管理、口令的安全管理、口令的加密算法流程和口令的攻击及防攻击进行设计和方案分析,通过对口令加密算法PBKDF2算法和AES128算法进行对比,选择适用于中医药大数据平台账号口令的加密算法。针对中医药大数据临床医疗文本类数据的结构化的特征,对医疗文本数据进行形式化的语言描述和分析,把患者的临床医疗数据分为敏感数据向量和非敏感数据向量,提炼出敏感数据的属性特征,设计基于属性的敏感数据和特定密文哈希的内积加密算法,同时根据医疗应用场景和医疗数据的特点,选择不同的参数和数据量,对该算法进行研究和对比分析。3)结构化特征的医疗数据由冗余的结构化信息和叶子节点的医疗数据信息组成,采用提取主干结构树法对结构化的数据进行去冗余处理,并对此主干结构树进行矩阵转换,生成主干结构树对应的存储矩阵;对叶节点的内容进行区间编码以便于数据的查询,使得结构信息和节点内容分离式存储。在云端和雾节点的相互配合下,设计一种基于属性加密及XML结构授权相结合的医疗数据保护方案,通过授权矩阵对共享医疗文档进行结构授权,从而实现对医疗数据进行细粒度的访问。4)区块链核心技术之一的同态加密技术特点:在明文上操作然后加密和直接在密文上操作,得到的结果是一样的;可以实现在没有秘钥的情况下只存储和传输加密结果,而不获取具体的数据信息,从而达到支持对加密数据进行处理而不泄露任何原始信息的效果。基于此特点设计提出一种基于paillier加法的同态加密和基于范围的零知识证明算法,用于各个中医药数据平台的医疗数据的共享访问,同时保障医疗数据的安全性和满足数据的可追溯性;同时针对高频、小额的医疗数据访问,设计一种离链通道安全隐私保护方案,来保证交易双方在医疗区块链的链下交易的安全,以提升医疗数据的访问效率。结果:1)挖掘中国某市中西医结合医院的部分科室临床医疗数据,通过对中医药大数据医疗文本信息进行预处理,通过word2vec把自然语言中的字词转为计算机的稠密向量,建立医疗敏感词向量和词典库,对医疗特征的敏感数据基于Bi-LSTLM+CRF进行建模,选取其中的5000条医疗数据进行实验测试,发现医疗敏感实体类型中的性别、身份证号码、手机号码、姓名和关联地址这些具有明显特征的词向量,相较于普通的变化多样性词向量具备更高的识别率。2)设计并实现一种基于属性的内积加密的数据脱敏算法,把批量的中医药临床大数据中的敏感信息分割为不同长度数据颗粒度,与特定密文的哈希进行内积处理。在面对中医药大数据平台的海量数据加密的场景,与传统的哈希加密算法相比,本算法具备灵活的数据颗粒度、策略和高效的性能表现,适用于海量的中医药临床数据脱敏。3)设计并实现一种基于结构授权及属性加密相结合的临床医疗数据保护方案。借助于云端和雾节点,基于属性加密算法实现细粒度的访问控制。根据医疗数据的半结构特征,采用提取主干结构树法去除结构冗余,使用起止区间编码来表示节点信息,共同完成了对数据的隐私保护。安全证明及结果表明,此属性加密及结构授权的数据保护方案具有高安全、低存储的性能,适用于云存储背景的共享环境下中医药临床医疗数据高等级安全保护。4)设计并实现基于环签名的范围零知识证明和基于paillier加法同态加密的区块链安全与隐私保护方案。实现中医药临床医疗中的数据安全传输和基于属性的权限访问,提高医疗数据的透明性、可追溯性,满足各个中医药医疗平台之间的患者医疗数据的共享访问诉求,同时保障了个人医疗敏感数据的安全隐私。在区块链对临床医疗数据存储场景下,各个中医院和医保中心可以对患者医疗数据进行共享访问,同时本方案和算法具备良好的访问性能。结论:本研究在中医药临床大数据共享流程的各个环节,分别设计对应的算法和方案对敏感医疗数据进行识别、加密、共享访问和隐私保护,为中医药临床大数据的共享提供高性能和高等级隐私安全保护。