论文部分内容阅读
随着人工智能和互联网技术的发展,分布式机器学习成为了学术界和IT界的研究热点。分布式机器学习可以极大提高机器学习训练模型的速度,从而加快解决问题的速度,极大提高了生产效率。参数服务器是分布式机器学习中应用最为广泛的框架之一。参数服务器框架中训练数据外包存储到云服务器,可以极大降低本地存储的开销。但是这也会带来一些安全问题,包括数据完整性、数据隐私问题、密钥托管问题和代理签名。同时,参数服务器框架将训练数据存储在数据服务器中,会导致训练数据损坏或丢失等问题。针对目前参数服务器框架存在的完整性保护、数据丢失、代理签名、数据隐私和密钥托管问题,本论文研究面向分布式机器学习的大数据安全保护技术,实现参数服务器框架中参数和训练数据的完整性,并解决完整性验证过程中的数据隐私保护、密钥托管问题以及实现代理签名,从而保证分布式机器学习中训练模型的正确性。本论文研究的创新性工作主要包括如下三个方面:(1)针对分布式机器学习中训练数据完整性问题,本论文提出了一种训练数据完整性验证方案(DML-DIV)。首先,DML-DIV方案通过引入第三方审计者(TPA),定时验证数据服务器中训练数据,从而保证存储在数据服务器中训练数据的完整性。其次,DML-DIV方案解决了隐私保护问题和密钥托管问题,一方面,该方案采用盲化技术,保证TPA审计过程中训练数据的隐私;另一方面,该方案采用两步密钥生成技术,解决密钥托管问题,并且极大降低了证书的管理开销。然后,DML-DIV方案通过采用基于改进的抽样公开审计方案,可以有效防止网络攻击者和数据服务器的篡改攻击和伪造攻击。最后,安全分析和性能分析表明DML-DIV方案比其他公开审计方案更安全和更高效。(2)针对分布式机器学习中不完整训练数据安全恢复问题,本论文提出了一种训练数据安全恢复方案(DML-DR)。首先,DML-DR方案通过引入TPA对训练数据进行公开审计,从而保证训练数据的完整性。其次,DML-DR方案通过采用二进制网络编码技术,对训练数据进行编码后存储到多个云数据服务器,从而保证训练数据可以安全恢复和支持数据批量更新;即在TPA公开审计过程中检测到训练数据被损坏或丢失时,DML-DR方案可以安全恢复丢失或损坏的数据块。然后,DML-DR方案采用盲化技术,保证TPA公开审计过程中训练数据的隐私保护。同时,DML-DR方案采用两步密钥生成技术,解决了密钥托管问题。最后,通过性能分析和安全分析,表明DML-DR方案较其他方案更安全和高效。(3)针对参数服务器框架中参数完整性问题,本论文提出了一种参数完整性保护方案(PS-PIV)。首先,PS-PIV方案可以保证参数的完整性,一方面通过引入TPA定时验证机制,定时验证参数服务器中参数,从而保证参数服务器存储参数的完整性;另一方面通过引入实时验证机制,双方收到参数后实时进行完整性验证,从而保证参数服务器和工作节点之间传输参数的完整性。其次,PS-PIV方案可以实现隐私保护,一方面采用盲化技术保证TPA公开审计过程中参数的隐私保护,另一方面通过引入哈希算法保证代理签名过程中参数的隐私保护。最后,安全分析和性能分析表明PS-PIV方案比其他方案更安全和更高效。