论文部分内容阅读
在大数据时代,如何利用大数据进行有效分析已经成为各行各业关注的焦点。由于大数据的来源、数量、结构形式的不同、实时性等多样化的特点使其涵盖的价值很高,但其价值密度却很低。大数据集中存在的数据噪声和数据冗余会对数据分析产生不可估量的负面影响。此外,大数据集中还涵盖了多个变量之间的函数关系,可能会对数据分析结果产生一定的偏差。因此,在利用大数据进行分析研究之前首先要对大数据进行数据预处理,剔除冗余和无效数据。然而传统的大数据预处理方法并没有考虑变量之间的函数关系。数据包络分析(Data Envelopment Analysis,DEA)可以有效处理由变量之间函数关系引发的偏差问题。在利用DEA进行数据预处理的过程中,无需预知输入输出变量之间的函数关系、无需事先设定权重,通过求得的效率值筛选得到最有效的数据,剔除异常值和冗余值,在不改变数据质量的前提下缩减数据的数量,是一种可以应用于机器学习的数据预处理的有效方式。此外,常用的大数据建模工具不能有效地对包含复杂非线性关系的大数据进行建模。目前关于大数据建模比较好的方法有径向基函数(Radial-Basis Function,RBF)和支持向量机(Support Vector Machines,SVM)。RBF可以任意精度逼近任意非线性变量关系,更好的处理变量之间的复杂规律,为预测模型的发展提供了一个新的思路和办法,且预测精度较好,都取得了让人满意的效果。SVM能有效克服样本分布、冗余特征以及过度拟合等因素的不利影响,并在小样本、非线性预测方面具有较大优势,较好地解决了高维数和局部极小点等实际问题,具有很强的泛化能力。因此,本文选择RBF和SVM作为预测研究的主要模型。基于DEA数据预处理的有效性以及RBF和SVM预测精度较高的优点,本文提出了融合DEA和RBF、SVM的两种预测方法(DEA-RBF和DEA-SVM)。利用DEA进行数据预处理,筛选出最有效的数据集,减少RBF和SVM的训练时间。此外,在保持大数据普遍性的前提下消除了异常值,防止将具有负面影响的数据应用到RBF和SVM中,继而使得模型的预测精度更高。本文将DEA-RBF和DEA-SVM这两种改进的模型与单纯的RBF和SVM模型进行了对比研究。从时间成本和预测精度两个方面来看,与单纯的RBF和SVM模型相比,DEA-RBF和DEA-SVM两个模型均在训练时间减少的情况下提高了预测精度,预测效果较好,模型的有效性得以验证。RBF模型与SVM模型各有千秋,目前尚无成熟的理论能够指导在什么情况下选择哪种模型,更多的是依赖管理者或工程师的经验和数据集的特点。本文提出了两种改进的建模方法旨在为管理者或工程师提供更广阔的选择空间。最后,本文将DEA-SVM模型应用于葡萄酒质量评估,为葡萄酒行业的发展与企业的管理提供了决策支持。