面向分布式机器学习的大数据安全保护技术研究

来源 :东南大学 | 被引量 : 0次 | 上传用户:hsb66
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人工智能和互联网技术的发展,分布式机器学习成为了学术界和IT界的研究热点。分布式机器学习可以极大提高机器学习训练模型的速度,从而加快解决问题的速度,极大提高了生产效率。参数服务器是分布式机器学习中应用最为广泛的框架之一。参数服务器框架中训练数据外包存储到云服务器,可以极大降低本地存储的开销。但是这也会带来一些安全问题,包括数据完整性、数据隐私问题、密钥托管问题和代理签名。同时,参数服务器框架将训练数据存储在数据服务器中,会导致训练数据损坏或丢失等问题。针对目前参数服务器框架存在的完整性保护、数据丢失、代理签名、数据隐私和密钥托管问题,本论文研究面向分布式机器学习的大数据安全保护技术,实现参数服务器框架中参数和训练数据的完整性,并解决完整性验证过程中的数据隐私保护、密钥托管问题以及实现代理签名,从而保证分布式机器学习中训练模型的正确性。本论文研究的创新性工作主要包括如下三个方面:(1)针对分布式机器学习中训练数据完整性问题,本论文提出了一种训练数据完整性验证方案(DML-DIV)。首先,DML-DIV方案通过引入第三方审计者(TPA),定时验证数据服务器中训练数据,从而保证存储在数据服务器中训练数据的完整性。其次,DML-DIV方案解决了隐私保护问题和密钥托管问题,一方面,该方案采用盲化技术,保证TPA审计过程中训练数据的隐私;另一方面,该方案采用两步密钥生成技术,解决密钥托管问题,并且极大降低了证书的管理开销。然后,DML-DIV方案通过采用基于改进的抽样公开审计方案,可以有效防止网络攻击者和数据服务器的篡改攻击和伪造攻击。最后,安全分析和性能分析表明DML-DIV方案比其他公开审计方案更安全和更高效。(2)针对分布式机器学习中不完整训练数据安全恢复问题,本论文提出了一种训练数据安全恢复方案(DML-DR)。首先,DML-DR方案通过引入TPA对训练数据进行公开审计,从而保证训练数据的完整性。其次,DML-DR方案通过采用二进制网络编码技术,对训练数据进行编码后存储到多个云数据服务器,从而保证训练数据可以安全恢复和支持数据批量更新;即在TPA公开审计过程中检测到训练数据被损坏或丢失时,DML-DR方案可以安全恢复丢失或损坏的数据块。然后,DML-DR方案采用盲化技术,保证TPA公开审计过程中训练数据的隐私保护。同时,DML-DR方案采用两步密钥生成技术,解决了密钥托管问题。最后,通过性能分析和安全分析,表明DML-DR方案较其他方案更安全和高效。(3)针对参数服务器框架中参数完整性问题,本论文提出了一种参数完整性保护方案(PS-PIV)。首先,PS-PIV方案可以保证参数的完整性,一方面通过引入TPA定时验证机制,定时验证参数服务器中参数,从而保证参数服务器存储参数的完整性;另一方面通过引入实时验证机制,双方收到参数后实时进行完整性验证,从而保证参数服务器和工作节点之间传输参数的完整性。其次,PS-PIV方案可以实现隐私保护,一方面采用盲化技术保证TPA公开审计过程中参数的隐私保护,另一方面通过引入哈希算法保证代理签名过程中参数的隐私保护。最后,安全分析和性能分析表明PS-PIV方案比其他方案更安全和更高效。
其他文献
学位
学位
学位
学位
学位
学位
学位
近些年,为解决电互联出现的各种瓶颈问题,光互连技术受到广大学者和研究机构的重视,成为热门技术。而光子集成回路(PICs)由于其CMOS兼容和高折射率差等特点是构建高速片上光互连技术的重要基础支撑,亦是未来光信息处理系统发展的必然需求。光功率分配器和偏振控制器是PICs中两种基础型无源器件,前者用于实现光波的多路分配,而后者用于不同偏振模式的分离与选择,对于PICs的实现具有重要的研究意义。本文旨在
随着媒体的快速发展,现如今,广大人民群众了解新闻和社会事件方式往往借助数字媒体,其中尤以视频所占的比重最大。同时,人们往往默认新闻报道的内容是诚实可信的,这就给不法分子提供了可乘之机,他们通过修改视频中的人脸图像来引导人们曲解原视频中所表达的含义。因此分辨视频是否真实显然对政府舆情管理和事件管控等方面都具有着重要的意义。目前检测虚假人脸图像的研究可分为两类:一类基于图像之中具体的,有明显意义的图像
学位