【摘 要】
:
数据驱动建模可以不需要先验知识,就能挖掘出数据背后隐含的规律,是未来大数据时代的热门研究。相比于早期的依据确定模型计算参数的建模方法,符号回归(Symbolic regression)
论文部分内容阅读
数据驱动建模可以不需要先验知识,就能挖掘出数据背后隐含的规律,是未来大数据时代的热门研究。相比于早期的依据确定模型计算参数的建模方法,符号回归(Symbolic regression)作为数据驱动建模的重要方法之一,能够同时计算参数和发现显性的数学表达式模型,具有很高的拟合精度。但是,精度越高意味着模型越复杂,对训练样本的过度拟合会降低对未知样本的适应能力,泛化能力难以保证。因此,研究精度与泛化平衡的问题就很有意义。首先从如何合理计算符号回归算法模型的复杂度入手,分析模型的泛化能力。根据奥卡姆剃刀法则,越简单的模型越有可能接近模型中隐含的规律,泛化能力越强。因此,在现有对模型复杂度定义的基础上,采用改进的非线性模型的语法复杂度和语义复杂度混合的方式评价模型,在模型的结构上和模型的表达上都能合理给出复杂度的度量,依据研究中的度量方法可以得到更简单的表达式模型结构和更加光滑的曲线表面。通过在数据集上的实验证明,合理评价模型复杂度有助于提高模型的泛化能力。通过在模型训练的过程中对拟合数据的重要性加以评价的方法进一步提高建模的泛化能力。根据在拟合过程中数据集中的每个训练数据的表现不同,为每个数据赋予动态权重,并以此作为参考为每个样本设置了一定范围内允许的误差。也就是说,根据样本的动态权重训练出的模型是一个唯一确定的数学模型累加上每个数据点处的不确定浮动范围,越重要的点,浮动范围越小,即允许的误差越小。为了平衡建模中的精度与泛化能力,借鉴机器学习中的结构风险最小化原则,采用多目标优化和集成学习的方式得到最终的模型。结构风险最小化原则中同时考虑最小化经验风险和置信风险,研究中采用多目标优化的方式,将代表经验风险的误差总和,以及模型复杂度近似的置信风险作为两个优化目标,优化得到分布在Pareto前沿上的解集,用集成学习的方式将这些互相独立的解融合成一个最终需要的模型。最后,本文提出的方法作为一种通用的框架适用于绝大部分符号回归算法,文中将方法应用于求解符号回归问题的粒子群优化算法(PSSR)上,在主流数据集上做了对比实验,验证了本文方法的有效性。
其他文献
第一部分DLL3在小细胞肺癌肿瘤组织中的表达及其意义目的:检测DLL3蛋白在小细胞肺癌(Small Cell Lung Cancer,SCLC)肿瘤组织中的表达情况,探讨DLL3的表达与SCLC患者临床病理
目的:破骨细胞起源于骨髓造血系统的单核/巨噬细胞系,其通过发挥骨吸收作用以维持骨重塑的平衡,使骨骼系统得到持续的更新。一旦破骨细胞的功能失调将会引起多种骨代谢性疾病,如骨质疏松,骨骼石化症等等。近期大量研究报道,长链非编码RNA(long non-coding RNA,lncRNA)可以通过调控多种细胞生理活动而影响细胞命运,包括增殖、分化、凋亡。然而lncRNA对破骨细胞分化影响的研究尚不够深入
二氧化碳的大量排放导致全球气温上升问题,愈发引起民众的注意,成为全球共同关注焦点。国际组织开始实行有效的公共政策对温室气体排放加以管控,例如诸多国家政府通过颁布相
目的:九味通窍汤在临床上对中风、偏头痛、脑外伤性耳鸣耳聋及眩晕等疾病的防治及症状的改善有较好的效果,疗效确切。多项实验研究表明全方中的多味药材及单体成分具有抗脑胶
磷是植物生长发育所必须的营养元素之一。土壤中的磷主要是难溶磷,植物不能直接吸收利用,所以植物经常面临低磷胁迫。根际酸化是指植物通过根系分泌质子和有机酸引起根际周围
种业是我国战略性、基础性的核心产业,国务院于2011年颁布《关于加快推进现代农作物种业发展的意见》并提出构建以企业为主体、市场为导向的利益共享、风险共担的农作物种业
目前,光催化制氢技术是最有前景的清洁能源生产技术之一,为太阳能转化为可再生的绿色燃料—氢能提供了一条有效途径。同时,光催化技术还可以降解废水中的有机污染物,保护环境
股权质押作为一种权利质押,因其融资效率高、成本低等优势而备受上市公司股东的青睐。在2013年市场推出股票质押式回购业务后,股权质押业务快速发展,已成为我国资本市场一种
创业板市场,作为主板市场的重要补充,其设立目的是为拓宽中小企业融资渠道,促进产业结构升级,自设立以来,对我国企业发展和经济转型起到重要作用。随着经济进入新常态,我国经
[研究背景及目的]肾脏缺血再灌注损伤(ischemia reperfusion injury,IRI)常发生于泌尿外科以及心脏和大血管手术等过程中,是导致急性肾损伤的主要原因之一,对患者的近、远期