基于互信息和贝叶斯最优化的两种特征选择算法

来源 :广东工业大学 | 被引量 : 5次 | 上传用户:zjj1993930
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着机器学习和大数据的兴起,传统的数据挖掘方法,存在学习率相对偏低和算法准确率相对不高的问题,其中的一个重要原因是因为数据特征维度过高.特征选择是目前机器学习领域内比较常见的数据降维方法.特征选择指的是从原始的特征集合中选择部分特征,通过某种评价标准使得机器学习中的分类或者回归算法达到最优结果的方法.现有的特征选择方法大多数是基于单一目标T的依赖性或特征与特征之间对Y影响的关联性,互补性和冗余性进行特征选择.然而这些方法几乎都没有考虑到组合特征,同时传统的机器学习算法的参数寻优方法,通常先有一个惩罚函数,然后运用经验或者穷举法调整参数来最大化或最小化这个惩罚函数,但是经常会遇到参数多、数据量大、特征多的情况,此时就需要有一种行之有效的参数寻优办法.本文主要从两个方法对特征选择算法进行改进.一、基于互信息的一种组合特征选择算法由于现有的方法都没有考虑到组合特征,如属性A,B仅包含Y中的极少量信息,甚至与Y完全独立,但A&B能提供关于Y的大量信息,甚至完全决定Y.基于此,提出了一种能够从特征集合中挖掘到组合特征与单一特征的特征选择算法,首先对不显著特征进行组合并按照条件概率分布表生成新的候选特征;然后,对单一特征和组合特征利用基于最大相关性和最小冗余度的准则进行选择;最后分别在虚拟和真实数据集上进行实验,实验结果表明该特征选择算法能够较好的挖掘数据集的组合特征信息,一定程度上提高了相应的机器学习算法的准确率.二、一种新的基于贝叶斯最优化的Xgboost算法在使用Xgboost框架时,经常涉及各种参数的调整,并且参数组合的选取对模型的分类性能影响较大.传统的参数寻优方法,是先有一个惩罚函数,然后运用经验或者穷举法调整参数值来最大化或最小化这个惩罚函数,但是经常会遇到某个模型没有一个显式的表达式的情况,比如“黑盒”问题.这类模型的参数寻优就非常麻烦,同时又会给算法带来一定的不确定性和随机性.本文基于高斯法(GP)的贝叶斯最优化算法对Xgboost框架进行参数寻优,提出了一种新的算法GP_Xgboost,并通过在多种数据维度情况下进行了实验.结果表明,本文改进的算法分类效果要优于人工调优和穷举法,从而证明了该算法的可行性和有效性.
其他文献
地塞米松是一种长效肾上腺糖皮质激素,近几年来在兽医临床上被广泛应用,但由于一些基层兽医工作者不太了解地塞米松的药物特性,所以滥用现象十分严重,给养殖者造成了一定经济损
在禽药营销中,技术服务的发展已经有近十个年头了,并且技术服务员目前仍然是各个兽药企业保证创收酶主要支柱,但其管理却是令人费尽心思的工作!
自然场景识别作为模式识别的一个重要分支,在无人车及机器人应用方面有着十分重要的研究价值。然而图像成像场景复杂多变,单一彩色场景图像信息不够丰富,使得场景识别的精度难以提升。而多源图像融合可以改善实际应用系统的可靠性、鲁棒性,提高图像信息的利用效率,结合不同传感器的信息互补优势,可以做到更全面的描述及识别待测场景图像与目标。随着可见光-近红外共平台成像系统的普及,智能化自然场景识别正在成为当前的研究
教学活动不仅需要教师具有教学理论智慧,更应具有教学实践智慧。教学实践智慧的形成是长期的、连续的、多因素共同作用的过程。师范教育阶段作为教师教育的“奠基”和“源头”
农业是国家发展的根基,农产品是保障国民生计的基础物资,这些年在互联网和电子商务飞速发展的背景下,'互联网+三农'也得到了飞速进步,传统涉农的各个产业行业链都亟
香港一洲医疗器械有限公司生产的YC-9200型体外冲击波碎石机,性能稳定,碎石效果好,我院自从1992年购买该机后,获得了较好的经济效益和社会效益。但生产该机的公司早已解体,所以当元
期刊
高校党校是广大青年学子学习党的理论知识、坚定共产主义信念的重要阵地.在新时期新形势下,高校党教育面临着新的机遇与挑战.从当前高校党校教育的难点入手,结合高校党校教育
本文报道了一种先进的牙科专用诊断仪器——痛前反应型电流指示式牙髓活的测试仪。该仪器采用某一特定频率的交变电流作为刺激信号,当这种信号电流通过牙髓时,能诱导出一种“
本分析器为应用人体总钾量变化百分比计算分析方法诊断治疗钾异常和部分急、重症的计算机微型终端。它在较小存储空间,可显示一、二级汉字,可运行微型关系数据库管理语言,使