论文部分内容阅读
近年来随着互联网技术的飞速发展以及社会的不断进步,机器学习这一门人工智能科学在社会生产、科学研究及日常生活中占据着愈发重要的作用。作为机器学习中的经典算法,支持向量机(Support Vector Machine,SVM)基于其在小样本、非线性及高维模式识别中的特有优势而得到了快速的发展。目前国内外学者对支持向量机进行了许多有益的探索和研究,并将其成功应用于包括生物信息学、文本识别和天气预报等领域在内的生产生活各个方面。然而,没有一个模型可以在所有情况下都表现良好,单一的支持向量机仍然存在着局限性,如存在缺失值时效果欠佳、参数确定没有具体的标准以及面对复杂数据时表现不理想等,这些问题会对模型效果带来不利影响。基于这一背景,本文对支持向量机进行改进并提出若干基于支持向量机的优化模型。优化形式可以分为三类:数据结构优化、参数优化以及组合优化。对于数据结构优化,本文使用分解集成策略来选择合适的数据训练支持向量机,以改善支持向量机对复杂数据效果欠佳的问题;对于参数优化模型,本文提出基于最优化算法的模型来处理支持向量机参数选择问题;组合优化模型又可分为方法组合优化和模型组合优化,其中方法组合优化是对包含支持向量机在内的统计方法的结果进行组合,改善单一方法不能在各种情境下都表现最优的状况,而对于模型组合优化,本文尝试将支持向量机与治愈模型相结合,来解决传统治愈模型在非线性条件下估计效果欠佳的问题。为了检验不同优化方法的效果,分别将各优化模型应用于实际数据中进行实验。选择优化的原则与所应用的实际背景有关,即根据具体数据特点来构建相应的优化模型,并分别应用于大气污染治理、文化产业管理、能源经济及生存分析等。对大气污染治理来说,由于污染物时间序列包含了不同周期的子序列,如季节性波动、短期天气变化等,使得数据结构比较复杂,这时就需要使用数据结构优化,首先将不同周期的子序列分离,再分别进行预测。对文化产业管理来说,由于一部电影受到制作成本、电影类型、明星影响力等诸多因素的影响,每个电影都具有各自的独特性,这时就需要考虑使用参数优化方法选择具有更好参数的支持向量机进行建模。在能源经济领域,本文所使用的数据样本量较大,且不同地区的数据特点不同,没有一个单一模型可以在各地区各季节都表现良好,这时就应该考虑使用方法组合优化模型。对于生存分析中的治愈模型来说,其治愈率部分使用Logistic回归。但是随着研究的发展,许多协变量与治愈概率的关系并不符合Logistic函数的形式,而是存在一些其他复杂的关系,因此,考虑使用模型组合优化构建新型治愈模型。全文共分为六个部分,其主要研究内容及结论如下:第一章介绍本文的选题依据、研究意义、研究思路与主要内容以及主要创新与不足。第二章提出优化支持向量机的概念,将讨论支持向量机的原理与特点及目前关于优化支持向量机的研究现状及局限性。第三章分析支持向量机的数据结构优化及应用。给出KZ滤波及改进方法的原理与特点,并介绍与支持向量机相结合的优化模型。在实验中首先分析大气污染治理的研究背景,使用改进KZ滤波分析大连市的污染数据,并挑选中国四座城市的污染数据综合评估优化模型的预测效果。结果显示,分解集成策略可以很好地实现数据结构优化。污染物冬季的长期分量达到峰值,而夏季的长期分量保持相对较低水平,其中季节性分量和短期分量在冬季表现出较大的波动。从方差贡献率结果可以看出,季节性成分对原始序列的贡献最大,其次是短期和长期成分。预测结果表明,数据结构优化模型具有较好的预测效果和拟合精度,并在存在噪声的情况下仍然表现良好。第四章探讨支持向量机的参数优化及应用。首先介绍帝国竞争算法及用该算法优化的支持向量机,接下来使用电影票房数据检验优化模型的效果。在实验中首先选择最适合的训练集大小,其次将优化模型应用于首映周票房预测,并与常用模型进行比较。结果显示,当最优训练集为20,预测模型为所提出的参数优化模型时,预测效果优于其他对比模型,此时预测的MAPE值约为15%。通过列出22部测试电影的票房预测值和真实值,发现大部分情况下预测值都非常接近真实值。模型对比结果也证明了优化模型的有效性。第五章对支持向量机的组合优化及应用进行描述。首先论述组合预测和治愈模型的原理和特点,接下来通过对方法组合优化模型在能源经济中的应用和模型组合优化在生存分析研究中的应用分别论证两个组合优化模型的效果。方法组合优化的结果表明,当训练集为一个月的数据,测试集为一周的数据时,预测性能最好且最稳定。与常用模型的比较表明,支持向量机与ARIMA和BPNN具有同一水平的预测精度。因此,引入三个模型构造方法组合优化模型。预测结果表明,该组合优化模型性能优于组合优化模型中的任何一个单一方法,并优于近些年由学者提出的部分预测模型。模型组合优化的数值模拟结果表明,所提出的半参数模型在估计协变量的未治愈概率方面与现有的治愈模型相比有更好的性能。当潜在的发病率结构不能用Logistic模型近似时,所提出的治愈模型的均方误差和错分类率均小于现有的模型,这表明所提出的优化模型在发病率部分具有更好的校准和判别表现。真实数据结果说明,两个模型估计的潜伏期结果相似,而优化模型估计的未治愈率可以提供比传统模型更多的信息。第六章对各优化方法的适用性进行讨论,对全文进行总结,并对未来研究方向进行展望。本文的主要创新点如下:(1)在数据结构优化方面,传统的KZ滤波由于滑动平均的作用,在每次过滤后都会损失部分首尾数据,而缺失数据对于构建预测模型至关重要。基于此,本文对KZ滤波进行改进,提出两种新型滤波方法,并利用分解集成策略和支持向量机对数据结构进行优化。(2)在参数优化方面,本文首次尝试将百度指数与支持向量机结合起来以构建复合预测模型。由于不同电影的百度指数相差很大,本文还选择参数优化方法对支持向量机中的参数进行优化。(3)在方法组合优化方面,由于不同时间不同地区风速的数据结构差异很大,没有一个模型可以在所有情况下都表现良好,因此本文并没有去研究效果优良的单一模型,而是尝试使用组合预测的方法,对包括支持向量机在内的常用统计预测模型进行比较,选择效果较好的模型构建方法组合优化模型。(4)在模型组合优化方面,本文首次将支持向量机与治愈模型相结合得到一种新型的治愈模型。在该模型中,由于支持向量机在小样本和非线性模式识别中具有独特优势,使得其可以在治愈率部分为非Logistic函数下仍具有较高的识别效果。本文所提出的优化模型同时具有较强的理论与实际意义。在理论上,本文选择数据结构优化、参数优化以及组合优化来克服单一支持向量机的不足,简化训练数据结构,提高模型整体效果。此外,本文提出的优化模型能够从理论上弥补现有模型的不足,具有较强的泛化能力。同时,这些优化模型也具有很重要的实际意义。对比较灵活的机器学习模型来说,根据其结果可以提前研判出所研究事物未来的发展态势;而对传统统计模型来说,根据其结果可以识别出协变量的效应并对具有一组协变量值的个体进行预测,这些结果可以为管理部门和政策制定者提供决策依据。在本文中,将这些优化模型分别应用于风速预测、大气污染预警、电影票房预测和生存分析中,证明其在不同领域的良好效果。本文的不足之处如下:(1)对预测模型来说,由于所选择的数据都是一定范围内的数据,故可能存在抽样偏差。今后可以尝试在更大数据集下进一步测试优化模型的综合性能,并与其他预测模型进行比较。(2)对治愈模型来说,本研究没有对治愈模型的潜伏期部分进行改进。理论上说,支持向量机所具有的特点可以在潜伏期部分对病人的生存函数进行拟合,并可能取得优于比例风险模型或加速失效时间模型的效果。此外,在今后的研究中可以测试新治愈模型在高维数据情况下的性能。