特征选择算法的研究与应用

来源 :华南师范大学 | 被引量 : 0次 | 上传用户:dixg03
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
提出了一种过滤式和封装式结合的特征选择算法和一种改进的深信度网络的特征选择算法。在对目标进行分类、识别的过程中,若特征的数量过多,会使计算在时间和空间上有较大的耗费,更甚,不相关的特征也会对最终结果造成干扰。对特征进行挑选,筛选出与任务密切相关的最小特征子集,可以使模型更精确,从而避免过了学习、减小空间和时间上的消耗、降低对结果的干扰。  重点做了以下的研究工作:  首先,由于一般的特征选择准则没有考虑变量交互作用,且局部搜索策略难以获得全局最优的结果。所以以遗传算法作为全局寻优方法,结合考虑了变量交互的适应度函数,从而提出一种基于遗传算法和改进互信息公式结合的算法来进行特征选择。在基本遗传算法的基础上,使用改进的互信息公式作为遗传算法的适应度函数。同时提出了使用概率神经网络来对遗传算法的初始化种群特征值进行选择的GA-PNN算法和使用概率神经网络来选择初始种群值、使用改进的互信息公式作为适应度函数的GA-PNN-MI算法来与GA-MI算法进行对比。同时,为了比较BP和PNN分类网络的优劣及验证所选特征的情况,将上面提出的GA-MI、GA-PNN和GA-PNN-MI算法选出的特征分别应用在BP和PNN这2种神经网络的分类器中。  其次,针对图像数据特征较多的情况,提出使用深度学习的方法来进行特征选择。由于传统玻尔兹曼机的距离度量算法较为复杂,使得计算在时间上的开销较大,所以提出使用较为简单的互信息作为玻尔兹曼机的度量算法,并将改进的玻尔兹曼机应用在深信度网络中,构造出一种改进的深度学习网络,即MI-DBNs。同时使用卷积神经网络和卷积自动编码器进行对比实验。  通过对比GA-MI、GA-PNN与GA-PNN-MI算法分别在BP、PNN分类器上的分类精度,检验各种特征选择方法的效果。实验结果表明:使用遗传算法和改进的互信息公式结合的GA-MI方法比GA-PNN、GA-PNN-MI方法所选的特征个数少,且分类精度并没有显著下降,能更为有效地选出特征,同时有较好的泛化性。  对比MI-DBNs、DBNs、CNN与CAE这几种不同的深度学习方法的分类精度和训练时间,实验结果表明改进的深信度网络在图像的较多特征数据时,算法的训练时间短,同时分类精度也没有下降。
其他文献
聚类是知识工程和模式识别中一个重要的研究领域,在对大量数据进行分析和处理时有其独特的地位。聚类领域方面的研究经过上世纪80到90年代的突飞猛进的发展之后,产生了种类和用
本论文是基于HLAC4ISR军用通信网仿真预研课题的一部分,C4ISR是指挥、控制、通信、计算机、情报、监视、侦察。C4ISR是一个复杂的系统,其中包括军用通信网系统。本论文是这个复
用户界面向着更加自然、个性化、智能化的方向发展,其发展趋势很大程度上取决于用户的现实需求和计算机技术的进步这两个推动力。人机交互研究者比以往更加关注认知科学,希望建
随着软件技术的发展,传统的面向功能开发方法己渐渐不适应越来越复杂多变的需求。目前,面向对象的开发方法己经成为软件开发的主流技术。统一建模语言(UML)是一种对面向对象系
数据挖掘作为一种融合了人工智能、数据库和数理统计等学科特点的新兴技术,与机器学习和统计学习密切相关。它是从大量、复杂的数据中迅速获取新颖、有效的知识的过程。分类规
电子商务必须建立在信息的获取和发布都能够及时、准确、全面的基础上。然而,电子商务中的信息纷繁复杂,交易过程的反复,严重地浪费了网络的带宽,传统的基于客户机/服务器技术的
论文首先介绍了应用软件的结构从传统的两层C/S结构到以B/S为代表的三层甚至多层结构的发展过程。论述了两层C/S结构的在多用户、多数据库情况下的局限性。研究和分析了B/S三
XML(eXtensible Markup Language)是一种广泛使用的标记语言,用来定义各种XML文档,应用于Web数据传输、数据集成、文档存储等场合。DOM(Document Object Model)是W3C组织定义
廊坊道路网是廊坊基础设施的重要组成部分。近年来,随着社会经济的迅速发展,道路规模不断扩大,道路相关信息资料和数据也在快速增加,其管理业务和管理难度也急剧增大,这对廊坊道路
数据挖掘是一个从大量数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的高级处理过程。商业竞争带来的巨大压力促使许多公司关注数据挖掘技术,用它来帮助企业