【摘 要】
:
GBDT算法是一种基于决策树的集成算法,多年来GBDT以其独有的特点和优势成为机器学习中应用广泛的算法之一。该算法能适应多种损失函数,既可用于分类也能用于回归预测,而且能够进行混合数据类型的自然处理。随着大数据、人工智能的快速发展,收敛速度、计算精度以及能否处理大规模数据已经成为衡量算法实用性的重要标准。基于此,对原有算法的进一步优化具有很大的实际意义。本文在基于GBDT数据分类方法的基础上,提出
论文部分内容阅读
GBDT算法是一种基于决策树的集成算法,多年来GBDT以其独有的特点和优势成为机器学习中应用广泛的算法之一。该算法能适应多种损失函数,既可用于分类也能用于回归预测,而且能够进行混合数据类型的自然处理。随着大数据、人工智能的快速发展,收敛速度、计算精度以及能否处理大规模数据已经成为衡量算法实用性的重要标准。基于此,对原有算法的进一步优化具有很大的实际意义。本文在基于GBDT数据分类方法的基础上,提出了基于GBDT的参数动态调整分类算法。该算法从特征提取和模型参数两部分对GBDT分类算法进行优化,不仅较好的解决了过拟合问题,还提高了数据分类的准确率。本文主要做了以下工作。1.研究数据特征提取方法,寻找合理的缺失数据填补原则。首先,提出了“双向综合填补法”用于数据缺失值的填补;然后,分别采用客观赋权法和主成分分析法进行特征提取,并比较两种方法下的GBDT分类算法和GBDT参数动态调整分类算法分类准确率;最后,分析了两种方法处理混合型数据的能力,结论是经过主成分分析法进行特征提取的GBDT分类算法处理混合型数据的能力更强。2.对GBDT分类算法的模型参数进行优化。在GBDT分类算法的基础上进行参数优化,提出了GBDT参数动态调整分类算法。该算法可在给定参数范围内通过对全部参数值进行迭代寻优,进而确定在满足精度条件下的参数值。3.利用本文的理论研究结果进行实证研究。将GBDT参数动态调整分类算法应用于妊娠糖尿病的诊断预测中,得到比较满意的预测结果;通过与经典GBDT分类算法的预测结果进行对比分析,从而验证了本文研究结果的合理有效性。利用GBDT参数动态调整分类算法对妊娠糖尿病数据进行分类,实验结果表明,改进后的算法较经典的GBDT分类算法的分类准确率最多可提高21.5%。
其他文献
如今国家对输电线路基础的应用越来越广泛,而普通的基础形式不能够满足我国一些地区复杂的地势要求,因此大量新型复合基础应运而生。本论文提出了一种新型复合基础—带有螺旋锚杆的偏心复合基础。该基础型适用于输电线路可塑土、软土、沼泽等地基,为输电线路在复杂地质地区的基础选型增加了可选择性。本文通过对新型复合基础的理论分析,确定了适用于该基础型的具体理论公式。所提供的计算理论可满足输电线路各级电压等级的相应塔
随着计算机技术的发展,国家大力推进“互联网+”产业模式的建设,在线医疗产业作为我国全民信息化健康平台的重要组成部分,促进了优质医疗资源的共享,推动了高水平医疗的普及化与多元化发展。然而,传统数据处理方式难以有效处理随之产生的医疗文本数据,制约了在线医疗的发展。因此,如何建立有效的数据处理方式,从中挖掘有价值的医疗信息,已成为我国在线医疗产业亟待解决的关键问题之一。本课题针对传统数据挖掘算法难以有效
微电源作为经济,可靠,清洁的能源,以分布式电源的形式接入电网中,可以有效的缓解传统供电方式能源危机、集中的供电方式弊端问题。然而,从微电网经济稳定运行的角度出发,提出了微电网的分层协同控制概念。单独基础物理层的控制无法实现对全局的控制,其主要以逆变器下垂控制作为控制策略,保证系统微源输出功率的精确分配及系统稳定运行。微电网的二级控制主要是针对初级控制出现的电压和频率的偏差,以恢复电压和频率为目标,
随着社会的快速发展,能源的过度开发以及日趋严重的环境问题,使我们不得不解决能源匮乏的问题,提高能源利用效率。而热能作为当今能源利用的主要形式,主要通过换热器进行能量的转换,泡沫金属具较大的比表面积、大孔隙率等特殊性质,其本身结构正好符合被动强化传热技术中的扩展表面法,并且因为其独特的多孔结构可以有效的破环层流底层,增加湍流程度从而增强化热效果,同时泡沫金属具有金属骨架,因此导热能力较高,所以使其具
丙烷(R290)是一种天然环保制冷剂(ODP=0,GWP=3),与CO_2混合后可有效解决系统运行压力高、冷凝困难等问题,同时还可保证较高的系统循环效率,因此,CO_2-丙烷二元混合工质在空调、热泵、制冷系统以及S-ORC动力循环系统中均具有广阔应用前景。本文对超临界CO_2-丙烷二元混合工质在水平圆管内的传热特性进行实验研究和数值模拟研究,获得了管内混合工质物理场参数分布特性,分析了物性参数剧烈
换热设备表面容易沉积污垢,这些污垢会提高换热设备表面的污垢热阻,影响设备的换热效率,进而造成大量的经济损失。本文选取CaCO_3污垢作为管路中污垢代表,CaCO_3是析晶污垢中最常见的污垢,同时析晶污垢也是污垢中最具代表性的一类。为了降低沉积在换热表面的CaCO_3污垢所带来的危害,提高换热效率,常见使用的方法就是将阻垢剂加入到循环工质中。海藻酸钠(Sodium Alginate)具有良好的抑制C
随着上市公司的快速发展,越来越多的公司以并购的方式来扩大自己的业务范围。上市公司合并和重组的规模不断扩大,使得企业商誉规模迅速增加,商誉减值也呈现迅猛增长趋势。对投资者来说,商誉暴雷事件已经成为挥之不去的阴霾。本文通过分析金冠股份并购项目商誉减值案例,深入研究并购商誉减值的影响因素及其经济后果,为其他学者提供理论依据。本文主要采用案例分析法,以金冠股份公司并购项目为例,通过对比分析金冠股份并购南京
作为国民经济的基础型支柱产业,电力产业正处于不断发展与改进的阶段,当前我国输配电价改革也进入到了一个非常重要的时期。国家发展改革委员会于2020年印发的《省级电网输配电价定价办法》中,具体指出应根据电压等级及“准许成本加合理收益”的原则核算输配电价,这进一步推进了我国电力体制改革的发展。文章正是在此基础上,对M省电力公司多电压等级输配电成本分摊及定价方法进行研究。文章以M省电力公司为例,以其201
传感器是机器类人化和智能化的关键组成部分,是工程检测和机器人运动控制的基础,也是社会发展和科技进步的重要组件。当前,单维力传感器技术已经发展得较为成熟,在市面上也很常见。然而在国防工业、医疗卫生和精密加工等特殊应用场合,传统的单维力传感器由于检测信息单一、布线要求较高、适应能力有限,易受环境等因素限制,因此无法满足日益增长的技术发展需求。为此,本文基于磁致伸缩逆效应提出一种万向节型机械自解耦无线无
卷积神经网络是一类由卷积计算构成的深层神经网络,具有优秀的图像特征提取能力。由于网络的性能差异主要体现在网络的参数训练与结构设计上,因此优化网络参数与网络结构可以有效地改进卷积神经网络。本文主要研究卷积神经网络的参数优化与结构优化两个方面:在参数优化方面,本文提出基于图像特征的网络参数优化方法。此方法使用多组图像特征初始化卷积核,通过调整卷积核初始值优化卷积核参数并加速网络收敛。在结构优化方面,本