论文部分内容阅读
随着大数据时代的到来以及云计算等先进数据技术的发展,高维数据处理已经渗透到科研和生活的各个方面,在诸如科学研究、生物医学、网络通信等众多领域起到至关重要的作用。作为经典的数据分析方法之一,传统分类方法在面向高度复杂的高维数据时已捉襟见肘,许多处理低维数据运行良好的分类算法在高维数据中的分类效果亟待提高。因此,如何构建面向于高维数据的有效分类算法成为数据挖掘等领域的热点问题。 本文系统地介绍并分析了几种基本分类算法及相应改进算法的优缺点,同时对高维数据分类的通用特征降维方法进行了总结,讨论了这些方法在应用时的一些局限性。本文结合传统算法的优点,提出了一种适用于高维数据分类的新算法——并行非线性最小二乘法,并在新算法的基础上提出改进的随机版本,最后,基于以上算法的性能评估实验表明新算法具有更好的性能和精确度。本文的主要研究成果可归纳如下: 1、为解决最小二乘法处理高维数据效率低下的问题,结合并行分类方法提出了一种处理高维数据的并行非线性最小二乘分类算法。该方法平均地划分数据维,并行计算局部模型参数,整合后形成全局参数,通过一个迭代优化过程,可以大幅提升参数的性能。 2、在并行非线性最小二乘分类算法的基础上提出改进的随机版本。通过将迭代过程开始时的平均划分数据维变成随机地分割数据,可在时间复杂性基本不变的情况下,进一步提高了并行非线性最小二乘分类算法的性能。 3、完成了新算法的性能评估实验。以最小二乘法作为基准方法,选择共同的高维数据集作为实验样本,对新方法的学习效率和预测性能进行了评估。实验结果表明:本文所提出的新算法能够很好收敛,同时与最小二乘法相比,具有较好的时间优势,并能达到更好的预测精度。尤其是随机版本的新算法,表现出更优的时间优势,此两种方法均可被视为处理高维数据分类的重要候选方法。