【摘 要】
:
随着大数据时代的到来,如何快速处理数据并从中发掘有用的信息成为目前急需解决的问题。特征选择作为机器学习和数据挖掘领域的一个重要的预处理步骤,越来越受到学者们的关注
论文部分内容阅读
随着大数据时代的到来,如何快速处理数据并从中发掘有用的信息成为目前急需解决的问题。特征选择作为机器学习和数据挖掘领域的一个重要的预处理步骤,越来越受到学者们的关注,而算法已经不是处理海量数据的瓶颈。近年来,许多研究表明无关特征与冗余特征大大的影响了机器学习算法的准确性和运行效率,因此需要选择合适的特征选择算法,才能从海量数据中选择最有效的特征,更加高效地为机器学习算法服务。本文主要对机器学习中的两阶段特征选择方法进行研究,从高维特征中选择最有利于机器学习算法的特征,提高算法效率,降低运行时间。本文的研究内容主要分为如下几个部分:首先,从特征选择的分类出发,根据特征选择方法对机器学习算法的依赖关系,可以将其分为Filter模型和Wrapper模型。Filter模型具有快速高效、使用范围广的特点,可以对不相关特征进行检测和删除;Wrapper模型具有准确率高、生成特征子集较优的特点,可以得到较小的不含冗余特征的子集。根据两种特征选择模型各自的优点,可以采用两阶段的特征选择方法。其次,对于高维的二值数据,针对其只包含有0和1两种数值的特点,定义了差异标准值作为特征与类别相关程度的度量。相比于传统的方法,这种分析方法提高了相关性分析的效率。再次,对于冗余特征的检测,从相关性分析的角度出发,提出了基于最大信息系数的非线性相关性分析方法,可以定量地衡量出特征和特征之间非线性关系,使得最终获得的子集维数进一步降低。通过主成分分析法进行降维,在一定程度上也可以减少冗余特征。最后,基于最大相关最小冗余的理论,提出了两种特征选择方法。一种是针对0-1二值数据的特征选择方法,通过差异标准值和马尔科夫毯模型对无关特征和冗余特征进行删除。另一种是利用均衡增益值和最大信息系数的两阶段方法,得到最优特征子集。
其他文献
近年来,人们对真实世界中的网络进行了大量的实证研究。研究结果表明,实际网络的结构具有小世界效应、无标度特征等。具有这种结构效应或特征的网络被称为复杂网络。人们也逐渐
随着网络系统应用及复杂性的增加,网络蠕虫成为网络系统安全的重要威胁。近几年来,蠕虫本身又有了新的进展,即多态蠕虫的出现,其通过使用多种变形技术可以很容易的避开现有入
随着信息时代科学技术的迅猛发展,如何提供强大的计算资源,如超级计算能力,海量存储处理能力,网络通信能力等,已成为计算机界的一个热点问题。网格技术的提出使解决这一问题
教育信息化是我国当前的一项重大国策,是指在教育中普遍运用现代信息技术开发教育资源并优化教育过程,促进教育现代化的过程。教育现代化不仅要求在设备等“硬件”方面的更新,最
人脸识别作为一项典型的生物特征识别技术,涉及多个学科,例如图像处理、生理学、模式识别等,同时在国家安全、信息金融安全等范畴也具备很高的社会价值和应用前景。眼睛作为
微粒群算法是上个世纪90年代提出的一种基于群体智能理论的优化算法,通过群体中粒子间的合作与竞争产生的群体智能指导优化搜索。相比于进化算法,微粒群算法保留了基于种群的
视景仿真系统目前在我国已经广泛应用于各种研究领域,如军事仿真、城市规划仿真系统、虚拟现实房产推销系统、大型工程漫游系统和模拟训练系统等。但是仿真技术在赛场上的应
随着大数据、物联网技术的快速发展,云制造作为一种新的生产模式,日益受到制造企业的重视和青睐。在云制造环境下,工业制造过程中所产生的数据不断累积且缺乏关联,如何构建数据间的关联关系成为有效发现隐藏在数据背后的价值的瓶颈问题。数据之间的这种逻辑关联关系更多的隐含在大量单调、离散的数据背后,很少有能够直观表现出来的逻辑关系,如果无法发现它们之间的关联关系,就导致无法从这些数据中抽取出有价值的信息以及无法
随着计算机科学与技术的发展,理论、实验和计算形成了当代科学研究的三大支柱。高性能计算已经成为支撑科学研究和高新技术发展的基础性交叉学科,越来越多的科学研究和重大工程
急性低血压症(Acute Hypotension Episodes,AHE)作为重症监护(Intensive Care Unit,ICU)中一种高死亡率、高突发率的术后并发症,严重威胁着患者术后的生命安全。生理信号时间序列