论文部分内容阅读
支持向量机(Support Vector Machine, SVM)是基于统计学习理论的一种数据挖掘新方法。它建立在结构风险最小化原则的基础上,能够有效地解决分类问题,使统计学习理论对实际应用产生重大影响,具有较高的实际应用价值,被广泛地应用于文本分类、手写字体识别、图像识别和医学辅助诊断等多个领域。关于隐私保护支持向量机的研究,是在支持向量机实际应用中遇到隐私保护的新问题而提出来的,它力图解决在保护数据隐私性的同时,又能够保证分类算法的预测准确率。本文以垂直分布数据的隐私保护支持向量机为研究对象,对有监督分类问题和半监督分类问题的隐私保护中心支持向量机进行了深入的研究和探讨,主要工作如下:1.针对大规模数据的隐私保护分类问题,提出了一类带有扰动的隐私保护中心支持向量机(Privacy Preserving Proximal Support Vector Machine,P3SVM)。该方法以具有速度优势的中心支持向量机为原型,引入了带有扰动的约简核,构建了隐私保护中心支持向量机,不仅隐藏了原始数据,而且提高了分类精度和训练速度。2.从Johnson-Lindenstrauss (JL)变换理论出发,针对以往方法的理论支撑不足,提出了一种基于JL变换的隐私保护中心支持向量机(Privacy Preserving PSVM Based on the Johnson-Lindenstrauss Transform, P3SVM-JLT)。首先,用马尔科夫不等式证明了基于JL变换的全局安全核具有保持距离近似不变的性质。进而基于该全局安全核,构建了隐私保护中心支持向量机。该方法不仅保护了原始数据,而且在理论上更加完整,具有更好的分类性能。3.针对P3SVM-JLT方法中的相同维数限制,基于几变换理论,提出了一种保持垂直分布的P3SVM-JLT (Vertical P3SVM-JLT, VP3SVM-JLT)。该方法构造了一种新的全局安全核,不仅能够保持垂直分布的形式,而且不受相同维数的限制,具有更高的灵活性。4.针对实际应用时存在的标签不一致或无标签的情况,提出了半监督隐私保护中心支持向量机(P3SVM for Semi-supervised Classification, P3S3VM)。将协同训练的Tri-training重要思想引入到隐私保护中心支持向量机的构建中,分别以P3SVM、P3SVM-JLT和VP3SVM-JLT为基分类器,利用有标签和无标签的样本共同训练。该方法能够有效利用无标签数据潜在的有用信息,使其在半监督学习过程中传递到最终分类器的设计中,取得了较好的分类效果。