论文部分内容阅读
随着计算机处理能力的增强,信息化产生大量的数据。机器学习通过对大量数据学习得到解决各种问题的方式。Tensorflow拥有不同的优化算法,提供计算空间,适用于各种机器学习任务。在机器学习中一项主要任务是处理分类问题。支持向量分类算法是机器学习中经典分类算法,在支持向量机分类问题中,处于分离平面较近的样本决定最终分割平面,这些样本被称做“支持向量”,最终预测模型的表达式与“支持向量”有关。由于样本量大导致求解复杂度高,在训练之前保存可能的“支持向量”缩减样本集,可以缩短求解时间。支持向量机与神经网络都具有非线性逼近特性,但神经网络容易陷入局部极优,如何结合两者来提高网络预测准确率。基于上述背景,本文研究内容如下:(1)针对支持向量机分类算法因样本量大而导致求解复杂度高的问题,提出利用K近邻样本的周边概率来缩减样本集,保留那些可能的“支持向量”样本,剔除非支持向量样本缩减数据集。在支持向量机求解问题上,原始问题和对偶问题在计算速率上有明显差异,当样本集数量较大时,对偶问题求解复杂度较高,速率较低,这种情况下对原问题求解比较合适。本文使用Tensorflow框架完成对支持向量分类算法原问题和对偶问题的求解,利用网格搜索寻找支持向量机最佳超参数。首先验证使用K近邻样本周边概率来缩减数据集的有效性,最后在UCI数据集下,对比Tensorflow求解SVM与python库中SVM,部分数据集上取得较好准确率和F1。(2)在研究支持向量分类算法求解基础上,为了解决神经网络容易陷入局部极优、网络预测性能不稳定等问题,从神经网络与支持向量机区别出发,分析引起神经网络效果差的因素,引入先验知识,利用支持向量聚类的高斯特征作为先验特征来优化网络,由于神经网络受初始化影响易陷入局部极优,本文利用降噪自编码器来预训练获取网络的初始化权重,结合神经网络与支持向量机使用,发挥两者优势。首先对比降噪自编码器初始化网络权值与随机初始化网络权值对网络准确率和F1的影响,其次对比支持向量聚类的高斯核特征作为先验特征对网络性能的影响,最后在UCI数据集下,本文算法与常用分类算法(决策树、逻辑回归、神经网络、支持向量机)进行对比,大多数数据集上取得较好准确率和F1。