双权重随机森林预测算法及其并行化研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:wujun33
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科技的发展,大数据时代已经来临,在大数据时代,数据呈现爆炸式的增长。大数据给传统的机器学习方法带来很大的挑战,随机森林算法由于其良好的表现受到各界广泛关注。由于大数据的海量、复杂多样、变化快的特性,大数据带来两个问题:一个是机器学习算法运行时间长,不能在可接受的时间内提供结果。二是:数据维度高,冗余大,传统的随机森林回归算法没法得到理想的效果。为了解决这些问题,本课题对传统随机森林回归的改进及其并行化展开了研究。针对数据维度高,冗余大,传统的随机森林回归算法没法取得理想的效果这一问题,有文献提出改进传统随机森林算法中随机抽取特征为带权重的特征抽取。但是我们通过分析发现:大多数的相关研究都是针对分类问题,对于回归问题鲜有讨论,而很多针对分类的方法并不能直接应用到回归问题上;并且对特征权重衡量的方法,几乎都默认特征之间是独立的,但是在现实环境中,往往不是这样的。所以本课题针对回归问题采用了一种能将特征之间关系考虑在内的特征权重衡量算法,并且使用了两种方法进行特征抽取。同时我们进一步分析发现:将随机抽取特征改为带权重的特征抽取虽然提高了分类回归树模型的精度,但是同时增大了树模型之间的相关性,树模型之间的多样性减小,进而有可能影响随机森林回归算法整体的表现。针对这些问题,本文提出了一种双权重随机森林回归算法,除了给特征加权重以提高分类回归树的精度,同时对生成的分类回归树模型加权重,以期通过双权重的方法兼顾分类回归树的精度和多样性,以改善随机森林回归算法最终的预测性能。为了解决给分类回归树模型加权重的问题,本课题提出了两种新的能兼顾模型树精度和模型树之间多样性的模型权重计算方法:有放回的向前搜索的方法和基于多样性计算的方法。本文将这两种模型权重计算方法与两种特征抽取方法两两组合成四种双权重随机森林回归算法,并通过实验分析效果。针对大数据环境下,机器学习算法运行时间长,不能在可接受的时间内提供结果的问题,本文对双权重随机森林回归算法进行并行化设计与实现并通过实验分析并行化效果。
其他文献
采用神经网络方案来进行短期电力负荷预测,探讨了负荷模型分类模,对应用于实际的神经网络算法进行了具体处理,如数据的归一化问题,网络权值与阈值的初始值选定,训练样本的选择策略
<正> 从生态学的观点看,柑桔园是一个单独的农业生态系统,以多年生常绿植物柑桔为主体形成一个稳定的生物群落。柑桔园的害虫区系在不同年份间虽有一定波动,但与一年生作物相
第一部分自评健康状况与缺血性心脏病发生的关联性研究目的:研究GSRH/ASRH指标是否与中国人群缺血性心脏病(Ischemic heart disease,IHD)存在关联,为进一步探索心血管病的非
遵义市湄江牛角塘水电站,因受目前物价水平和征地移民政策变化等因素影响,按其原规划方案建设时的主要技术经济指标较差,近期实施较困难。因此有必要研究较优的牛角塘水电站工程
目的:1.分析颈动脉粥样硬化研究现状及进展,明确颈动脉粥样硬化研究的学科知识结构、发展脉络及前沿领域。2.明确我国40岁及以上人群颈动脉粥样硬化的流行病学特征,包括颈动
目的探讨电视胸腔镜与形状记忆环抱接骨板在多发性肋骨骨折治疗中的临床效果。方法将我院84例多发性肋骨骨折患者分为对照组与治疗组,对照组予以加压包扎与胸部护板外固定,治
目的:通过观察沿视觉传导通路电针刺激对兔AION模型视神经组织结构和凋亡相关因子Bax、Bcl-2的影响,从形态学的角度探讨沿视觉传导通路电针刺激对缺血性视神经病变模型的保护
中国古代文学及文论中的“俳谐”及“俳谐诗”、“俳谐文”的文体概念传入日本后,逐渐取代了平安时代以降以优美、喜感为主要内涵的形容词“哦可嘻”(をかし),而成为一个独特的
当前,国内音乐剧的演出剧目令人应接不暇,无论是国外引进剧,还是中文版的外国音乐剧,亦或本土原创音乐剧,都在努力掠夺新兴的音乐剧市场。本文以东莞原创音乐剧为例,从制作模
黑色旅游包含着人们复杂的体验,文章以侵华日军南京大屠杀遇难同胞纪念馆为案例,利用线上用户生成内容数据,对中文、英文、日文描述的旅游体验进行分析,基于游前-游中-游后的