论文部分内容阅读
随着云计算普及发展,越来越多公司和个人将数据存放到云服务器,降低了大量的时间成本和人力成本。由于这些数据可能涉及用户的隐私信息,因此在数据上传到云服务器前,需要应用加密技术对数据进行加密,从而保护用户隐私。但此时用户将会遇到如何在密文状态下进行数据查找的难题,因为适用于明文状态下的处理策略往往无法直接应用于密文状态下的数据。可搜索加密是一种支持用户在密文状态下进行关键词查找的密码学原语,它可以满足我们在保护数据隐私的前提下查找数据的需求。在信息检索系统中,用户在输入数据的时候经常会出现轻微的错别字和格式不一致,为此本文聚焦于模糊搜索功能,提高系统实用性。首先,本文针对不同的应用场景类型,分别提出了基于Paillier加密算法的非对称模糊可搜索加密方案(PFSE)和基于Secure KNN加密算法的对称模糊可搜索加密方案(SFSE),满足用户在不同应用场景的需求。目前大部分的可搜索加密方案只支持对英文字母或者ASCII码表里的字符进行模糊搜索,我们通过对关键词进行预处理,从而使得本文的两个方案能够支持汉字模糊搜索和英文乱序搜索,模糊搜索功能更加完善。此外,本文的两个方案利用TF-IDF对搜索的结果进行筛选,每次只返回若干个与查询关键词最相关的数据,降低了传输开销,同时保证了用户良好的搜索体验。其次,在搜索阶段PFSE方案相较于实验对比方案,当关键词长度为6时,时间开销降低了25%,虽然在初始化阶段PFSE方案空间开销和时间开销有所增大。但搜索阶段才是耗时最多,同时搜索功能也是最主要的功能,因此PFSE方案相较于对比方案更加高效。此外,实验对比方案在搜索阶段会泄漏部分密钥,而PFSE方案通过对系统结构进行改进优化后,在各个阶段都不会泄漏任何密钥信息,因此PFSE方案更加安全。在SFSE方案中通过构建基于倒排索引的索引,使得SFSE方案相较于实验对比方案效率更加高效,同时搜索准确率更高。最后,利用关键词提取算法、自动文本摘要生成算法、词干提取算法和词形还原算法对本文的方案进行优化。此外,还实现了密文状态下数值区间模糊搜索功能。