基于优化自编码器的随机森林算法

来源 :太原理工大学 | 被引量 : 0次 | 上传用户:LXM302
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着世界科技日新月异的发展,电子信息技术更是在短短几十年间完成数次更新换代。从二十一世纪初期电脑只是少数人的工具,到如今被广泛使用,信息技术及相关的硬件产业正飞速向前发展。在硬件的支持下,计算机的计算力成倍增长,以往被计算力不足所拖累的神经网络算法也开始重新绽放光彩并且展示出与其它机器学习算法不同的特性。在新时代中,神经网络凭借其优秀的性能成为机器学习中不可或缺的一份子。
  自编码器是神经网络中与其它网络相差较大的一个分支,是一类自监督的神经网络算法,以原始数据为目标,经过一系列复杂的非线性变换后将原始数据转变为与其类似又不会完全相同的新数据,通过多次迭代使得新数据与原始数据差值尽可能小。这样能够将隐藏层作为原始数据的一种特殊表达,能够深层次挖掘原始数据之间的关系。在自编码的过程中,自编码器会对原始数据进行一定程度的重构,若原始数据之间存在深层次的非线性关系,自编码器可以借助原始数据的相关性在隐藏层对数据进行重构。
  在机器学习的一系列算法中,随机森林算法是一种刚诞生不久的算法。其兼具了决策树算法及集成学习之中的Bagging算法的基本思想,同时利用Bagging所独有的特性进一步针对性优化随机森林算法,并使用随机属性选择对单一决策树算法进行变量选取最终得到相对其它机器学习算法更为优秀的性能。随机森林算法相对于普通的决策树算法的优势在于其可以在不经过剪枝的条件下防止算法过拟合,并且在高维数据处理上拥有优秀的并行性,是处理高维数据的一种很好的选择。随机森林算法主要用于数据分类以及非参数回归中,依赖其优异的表现,随机森林算法在医学、生物学、统计学、经济学等众多学科之中拥有着极为广阔的发展前景。
  随着时代的发展,自编码器在数据压缩等方面越来越受人们青睐,然而其在提取特征的应用方面还缺少相应的研究。与此同时,有越来越多的数据集不再适用于随机森林算法,而随机森林算法又缺乏对原始数据的处理能力,无法对数据特征进行有效的选择。
  针对自编码器与随机森林算法的不足之处,本文从提取原始数据的特征入手,对自编码器进行一定程度的改进,使得自编码器所获取的隐藏层数据特征能够很好的运用于随机森林算法之中,从而结合两者各自的优点。具体研究内容如下:首先使用优化自编码器将原始数据进行非线性重构,其次将重构之后的数据特征应用于随机森林算法之中,使得随机森林算法的性能得到一定程度的优化。最后利用多种数据集对本文算法进行验证。
  当代中国的网络信息环境错综复杂,大量没有用处的信息在网络上肆意堆积不仅会使人们使用网络的效率越发降低,而且会对人们精神需求的实现造成阻碍,尤其是体育评论类文章众多且良莠不齐,网民无法从中有效地提取有意义的信息。因此怎样形成一个安全的网络环境,为人们日常的网络使用保驾护航,如何对体育评论文章的客观性进行分类是当下人们密切关注且亟需解决的问题。本文针对上述情况,使用基于优化自编码器的随机森林算法对体育评论文章的客观性进行分类,利用准确率、召回率、OOB score等多种不同角度的评价指标综合分析,全方位对该算法进行评估,以验证该算法的现实价值,进而为当前随机森林算法及自编码器的发展提供一种新思路。
其他文献
肿瘤治疗因其治愈率低,破坏性强,成为医学界难以攻克的课题。肿瘤细胞的生长演化机制与内在生长规律以及肿瘤细胞的生存性分析特征都为肿瘤治疗提供了强有力的理论支撑。值得指出的是随机微分方程领域的理论研究对肿瘤治疗的临床实践产生重要影响。为更好的研究探讨免疫监视条件下肿瘤演化机制与肿瘤治疗的新思路,本文基于随机微分方程理论和肿瘤免疫模型,系统研究了环境波动,周期治疗方法和随机切换对肿瘤细胞的生存性分析特征
在机器学习的许多领域中,都有高维数据存在,通过挖掘高维数据的结构来找到数据的紧表示对于以最小的存储空间来理解数据是非常关键的。近年来的研究表明,许多高维数据被看作是来自于多个低维线性子空间的并集的样本。本文研究了子空间聚类算法,提出了基于块对角表示的改进子空间聚类算法(New Subspace Clustering by Block Diagonal Representation,NBDR)并且在
对机器学习方法中分类模型的有关分类变量的研究,现有的研究大多集中在变量选择上。作为高维统计建模的基础,变量选择在大规模高维度数据处理问题上的重要性和必要性毋庸置疑。然而,针对低维数据,当可用于分析的变量总数并不多时,变量选择可能会导致关于总体分类有效信息的缺失,从而影响分类精度。同时,现有的二分类机器学习算法通常都会假定各分类变量对类别变量具有完全相同的影响,即在不考虑分类变量对类别变量可能存在不
在超高维数据的交互作用研究中,现存的方法都基于预先假定的特定模型进行筛选,而实际应用效果取决于真实模型与假设模型的相似度,当真实模型偏离假设模型时,可能会导致错误的选择结果。本文将主效应筛选中的无模型方法扩展到交互模型中,提出新的无模型交互作用筛选方法。本论文的主要内容和结论如下:  (1)提出了两种基于距离相关的无模型交互作用筛选方法ISDC-T与ISDC-B,这两种方法不要求层次模型假设,适用
在数字经济时代,越来越多的企业认识到数据的价值,越来越多运营过程中的数据被采集,并被进一步加以利用,帮助决策者进行企业运营状况评价和未来风险预警。其中,利用企业当前的一系列经济指标进行一段时间后的破产预测具有重要的意义。本文以此为背景,提出了针对高不平衡度、高维度、高相关性数据分类问题的方法——随机集成秩次k近邻算法(Random ensemble rank k-nearest neighbor
在统计学中,多借助零膨胀模型研究零膨胀数据潜在的模型结构及变量选择问题。然而,在多数情况下,响应变量的非零部分为定量数据,简单的零膨胀模型无法刻画这类数据的模型结构,对应的参数估计方法也不再适用。鉴于此,学者提出处理零膨胀半连续数据的两部模型。本文将惩罚函数的极大似然估计方法引入两部模型,研究其变量选择问题。本文的主要内容及结论如下:  1.阐明了基于惩罚函数极大似然估计方法的两部模型的原理,借助
神经元是神经系统内活动的基本单位,对神经系统信息处理和传递有着至关重要的作用。噪声是神经系统中最大的随机因素,当神经元受到周围噪声的影响后,神经元的放电模式也会发生变化。目前,有大量关于噪声诱导的随机共振和相干共振的研究,本文研究的是与前者不同的噪声对神经元放电的抑制效果,也就是反随机共振。基于Hodgkin-Huxley(HH)神经元模型,深入研究了噪声及自突触对神经元和神经网络放电活动的影响,
传统的图像识别需要人工操作提取特征,成本高,且有些图像特征是根据特定的场景设计的,不具有普适性。随着深度学习的发展,卷积神经网络作为其分支,有效避免了人工设计和提取特征,在图像识别领域获得了广泛的应用。然而粗粒度的图像分类无法满足人们对图像的了解更深层次的需求,细粒度图像分类方法应运而生。细粒度图像分类任务要求对图像细节进行辨认,即使人类也难以在如此小的类间差异和大的类内差异中区分数百个下属。加之
随着经济水平的快速发展,道路交通的需求量也随之增加,然而城市交通拥堵导致车辆行驶速度降低、行程时间延长、排放尾气增加、出行成本上升,这直接成为了制约城市发展的重要问题之一。因此,短时交通流预测研究对城市智能交通系统的建设发展具有重要意义。短时交通流预测是根据历史交通流数据对下一个时间间隔的交通流量进行预测的过程,既有缓解交通拥挤、提高运输效率的作用,也为城市交通规划提供了有效的依据。  随着人工智
学位
人类免疫缺陷病毒(HIV)是引起艾滋病的一种慢病毒,其感染和繁殖机制非常复杂,至今没有彻底清除的办法,严重影响着HIV感染者的健康状况和生活质量,同时也对整个社会造成了一定的危害.数学模型是探究HIV与人体免疫系统相互作用的重要工具,通过对病毒动力学模型的分析来揭示HIV的感染机制,为临床提供理论依据.由于这一感染过程会受到许多复杂生物学现象的影响,因此带有随机扰动的HIV数学模型能够更加真实地描
学位