面向大数据处理框架自动配置的模型构建与训练方法研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:tiger_adan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
以大数据为代表的新型应用可以挖掘大量的高价值信息,对经济和社会发展具有重要意义。然而,这些应用的多样性特征使得程序员很难开发出一个适用于所有通用的处理软件。目前通用的方法是为用户提供高可配置的大数据处理框架,用户可以根据应用程序的特点和需求灵活配置大数据处理框架,使其能够支持应用程序的高效执行。然而,正确的配置大数据处理框架需要了解其结构和执行过程等细节信息,而这对大部分普通用户来说比较困难。大数据处理框架的自动配置方法可以使用户在不了解框架实现细节的情况下,仍然能够进行合理的配置。目前的自动配置方法大部分都是在配置空间中进行启发式搜索,并利用性能预测模型为启发式搜索提供实时反馈。为实现高精度的性能预测,往往需要收集大量的框架配置和性能数据来训练复杂的预测模型,这就使得数据收集和模型训练等开销很大,需要针对大数据处理框架自动配置过程中的数据收集和模型训练的开销大等问题展开研究。对于性能模型数据收集开销大的问题,提出一种基于样本选择的性能建模方法,可以有效的减小数据收集开销。在此基础上,利用遗传算法在大数据处理框架的配置空间中进行启发式搜索,实现框架的自动配置。在建立性能预测模型时,将数据收集过程与模型训练过程结合起来,根据模型训练的动态需求进行针对性的数据收集,从而能够在不影响模型精度的前提下,尽可能降低模型训练所需的数据量和数据收集开销。相比于传统的性能模型训练过程,此方法能够有效的降低训练数据之间的信息冗余,提高数据利用率,减小模型训练所需的数据量和数据收集开销。实验结果表明,此方法可以将数据收集开销降低15%左右,同时将性能预测模型的精度提高1%左右。对于性能模型训练开销大的问题,分别从模型参数和训练样本两个角度对模型训练过程进行优化和加速。在模型参数方面,通过观察模型的迭代更新过程,发现不同的模型参数在迭代更新时,其收敛速度的差异性较大。然而,目前的方法在进行模型的迭代更新时,通常是从整体上进行收敛性判断,不考虑模型参数间收敛速度的差异性,这就会导致某些参数在收敛后仍然被多次更新,形成冗余计算,降低了计算效率。因此提出一种基于参数差异性的模型训练加速方法,将模型参数按其收敛速度的相似性进行分块,每个参数块中的模型参数的收敛速度相似,再对每个参数块进行并行更新和独立的收敛性判断,以降低训练过程中的冗余计算问题。在此过程中,由于参数块更新进度不一致可能会导致模型误差,但可从理论上证明,这部分误差不会影响到模型迭代更新的收敛性和计算结果的正确性。实验结果表明,相比于传统的参数并行策略,此方法可以将训练效率提升3倍左右,并将模型精度提高2%左右,同时此方法能够达到接近线性的并行加速比。在训练样本方面,现有的方法在每轮迭代时,都需要基于训练数据计算梯度以更新模型。然而,在经过前面几轮迭代后,大部分样本对模型更新的影响都很小,然而目前的模型训练方法没有考虑到不同样本对模型更新的影响,每轮迭代仍然需要基于所有训练样本计算梯度去更新模型,这就导致计算效率低下。因此,提出一种基于样本多样性的模型训练加速方法,在模型迭代更新过程中,如果某个样本对模型状态更新影响较小,则不必每轮迭代都计算其梯度信息,而是采用数据重用策略以减小计算开销。这种做法能够提升计算效率,然而会在模型更新时引入误差,可从理论上证明,这部分误差不会影响到模型迭代更新的收敛性和计算结果的正确性。实验结果表明,相比于传统的模型更新策略,此方法可以将计算开销降低28%到54%左右,且几乎不影响模型预测精度。综上所述,针对以大数据处理框架为代表的高可配置软件的自动配置问题,提出一种基于样本选择的模型构建策略,能够利用更少的训练数据得到精度更高的性能预测模型。同时,针对大规模训练集上的复杂模型训练问题,从模型参数和训练样本两个角度,对现有的训练过程进行改进,在不影响精度的前提下,提升模型的训练效率。
其他文献
沟渠湿地作为农田与下游水体的过渡,具有排水和生态湿地双重功能,在减少农业面源污染和保护下游水环境方面发挥着巨大的作用。然而,对于干旱半干旱区承担农田排水控盐任务的沟渠湿地而言,农田盐分输出成为影响湿地生态功能的主要问题。本文以陕西卤泊滩盐碱改良区农田-沟渠湿地系统为研究对象,采用室内外试验、理论分析和模型模拟相结合的方法,开展了不同水文年下农田-排水-湿地水盐动态研究,为兼顾灌区农业生产和生态环境
学位
[目的] 建立检测犬血浆中阿莫西林和克拉维酸浓度的UPLC-MS/MS方法,并进行犬口服国产阿莫西林克拉维酸钾片与参比制剂的生物等效性评价。[方法] 以乙腈和甲酸水溶液为流动相,经HSS T3色谱柱梯度洗脱,阿莫西林和克拉维酸分别用电喷雾正、负离子模式进行多反应监测,血浆样品用乙腈沉淀蛋白,二氯甲烷萃取,克拉维酸增加正己烷除脂,经方法学验证后,分别检测血浆样品中阿莫西林与克拉维酸浓度。生物等效性试
期刊
人类活动造成的全球变化引起陆地生物圈的深刻响应,并影响陆地生物圈为人类提供的生态产品和服务,进而威胁到生态安全和社会经济可持续发展。位于我国半干旱草原是全球面积最大的生物区系之一——亚欧大陆草原的重要组成部分,也是我国最为重要的畜产品供应基地和生态屏障,但是该区生态系统相对脆弱。20世纪中期以来,过度的草原利用引起了我国半干旱草原生产力降低、物种丰富度下降、土壤沙化等问题。1998年以来中国实施了
学位
随着事业单位的改革与发展,会计核算工作也面临着更大的压力,因此,必须提升会计核算的要求与标准,才能够提升事业单位的服务水平,为单位的可持续发展创造有利条件。事业单位的会计核算只有实现创新与优化,积极转变传统的核算模式,才能够满足目前新制度的需求,以便于对资金起到更强的监督作用,实现单位资金的合理配置。基于此,本文阐述了新会计制度对会计核算工作产生的影响,对影响会计核算的因素进行了精细化分析,提出了
期刊
现代社会经济和科技的飞速发展给人类工作和生活带来了无穷便利,但与此同时高速运转的工作、日益增长的经济负担、人际交往关系处理甚至是全球性新型冠状病毒蔓延等使人们承受着越来越大的心理应激,军人作为一个特殊群体,随时面临不可预测的心理应激事件,其也是心理应激的高发群体,军事应激所导致的负性影响是造成部队非战斗减员、影响战斗力的重要因素之一。正性心理应激有利于机体对外界刺激做出积极反应,负性心理应激则会导
学位
【背景】近年来的研究显示,高质量的结肠镜检查显著降低了结肠癌的发病率及癌相关的死亡率。高质量的筛查、腺瘤切除和随访是结肠镜诊疗的关键。国内外诸多结肠镜检查指南认为,若干指标可用于衡量结肠镜检查的质量,包括腺瘤检出率、盲肠插管成功率、退镜时间和肠道准备质量等,此外,腹部不适感或疼痛感是患者检查中体验,也可作为评估结肠镜检查诊疗质量的指标之一。在既往的报道中,对腺瘤检出率以及退镜时间的研究较为充分,而
学位
胃癌是常见的消化系统恶性肿瘤,虽然胃癌患者以中老年人为主,但近年来年轻人胃癌的发病率不断增长,逐渐呈现年轻化的趋势。年轻患者的胃癌被称为早发性胃癌(EOGC),而早发性胃癌患者与中老年患者相比,有着不同的临床病理特征及预后。EOGC患者早期临床表现并不典型,往往出现明显症状时已是晚期,所以对EOGC患者做到早诊断、早预防及有效的治疗手段是难点也是关键。本文作者通过对EOGC患者的危险因素、早期诊断
期刊
<正>古往今来,多少无辜生命在历史的长河中悄悄离去,战争无疑是残酷的、悲惨的,就连雄才大略的曹操也为之动容,他在《蒿里行》中写道:“白骨露于野,千里无鸡鸣。生民百遗一,念之断人肠。”伟大的现实主义诗人杜甫在《垂老别》中也悲叹道:“积尸草木腥,流血川原丹。”因此,谈及战争,只会让说者伤心,听者流泪。但有时候,亲身经历战争的人总有自己的感受,如“荷花淀派”代表作家孙犁笔下的《荷花淀》,在这篇文章里面,
期刊
从微生物组数据中搜集蛋白质家族的同源序列,补充其分子进化信息,进而预测可靠的三维结构与功能,是一个微生物基因挖掘领域中的新兴交叉学科。基于已有研究的结果,理论上搜集越多的微生物组数据能够预测出更多的蛋白家族的结构和功能,展现出巨大的科研与应用潜力。然而,在使用微生物组数据为蛋白质补充同源序列时,忽略了功能基因的来源物种和生态位(微生物生存环境的本体论注释)等信息,阻碍了探究预测出的蛋白结构与来源微
学位
目的:趋化因子受体2(C-C motif Chemokin receptor 2,CCR2)参与多种生理及病理过程,其在自身免疫性疾病的发病及病情演变过程也发挥重要作用。然而,CCR2对自身免疫过程中B细胞信号转导和B细胞免疫应答功能的影响尚不清楚。本研究侧重于CCR2在B细胞表面受体(B cell receptor,BCR)激活及下游信号通路中的参与,以及该过程中涉及的若干分子信号,旨在阐明CC
学位