在线学习与分布式SCAD算法研究及应用

来源 :西北大学 | 被引量 : 0次 | 上传用户:lhl23
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的快速发展,使在诸多科学领域中对高维数据的采集成为可能,机器学习理论也更趋于完善,基于观测数据训练机器学习算法被广泛应用于各个学科.但大数据时代中数据量往往成几何倍数增长.面对这样一种海量数据的情况,在做好数据的存储与整理后,一个自然的问题是如何设计新的适合于大数据的学习算法.近年来在线学习算法与分布式算法的兴起为解决此类问题提供了新的处理和分析方式.在线学习解决了离线学习数据训练成本大,难以分析实时数据流的缺点,分布式算法相比集中式计算便于存储与处理海量高维数据,同时极大缩短计算时间提高分析效率.我们关注于大数据处理方法的研究,开展包括基于logistic回归在线学习的分类问题的研究和基于分布式SCAD的机床操作工艺能耗预测研究.
  本文各章内容安排如下:
  第一章中简单叙述了研究大数据处理方法中在线学习算法与分布式算法的意义以及研究背景.
  第二章中研究带有正则项的在线logistic回归,提出了在线logistic-l2回归模型,并基于在线学习理论给出regret界估计.通过模拟数据与真实数据的实验表明,提出的模型与算法能够达到离线预测的分类结果,有效解决连续数据流的分类问题.
  第三章中基于ADMM算法和非凸正则化SCAD罚项进行变量选择,以机床工艺操作的能量消耗为案例,设计对应的分布式算法建立能耗模型.通过数控机床上真实数据的实验表明,提出的模型和算法可以有效预测数控机床工艺操作的能量消耗,为工业生产能耗分析提供了一种新的有效方法.
  最后,在文章第四章总结了论文的主要工作,并给出未来研究的若干方向.
其他文献
学位
There are several articles written about how to enter into the Chinese market,how difficult it is to adapt to Chinese business culture and how to succeed in the Chinese market.However there is very li
当代我国的经济正处于“新常态”的环境中,我国经济的发展较以前相比,其发展速度变缓,而工业化初期所带来的经济加速增长的福利正在逐渐的削弱,我国经济已全面进入“结构性减速”的时代。在新常态下,寻找新的经济发展动力就显得愈发的重要。已有学者通过研究表明,在经济的发展过程中,产业结构的升级可以作为其更进一步发展的主要动力,因此各个国家都在寻求利用产业结构升级的方法,来实现国民经济的持续稳定增长,这已经上升
实体经济是中国发展的重要支柱和强大动力,保持实体经济持续增长是推动中国经济健康发展的基本要求。然而,在当前中国经济下行、经济进入新常态的情况下,实体经济的回报率低、周期长,而金融行业的利润率高、周期短,这使得大量资本流入金融部门,造成金融虚假繁荣、经济泡沫化严重的现象。  数字普惠金融是指一切采用数字技术促进普惠金融的行动,其在互联网技术的基础上与金融相结合,产生了诸多创新的金融业态。数字普惠金融
改革开放四十年以来,中国的经济取得了飞速的发展,2018年全年国内生产总值900390万亿元,人均年收入9732美元,高于中等收入国家的平均水平。但是高速度的经济增长是通过过度依赖能源和资源消耗形成的高投入、高能耗、高污染、低效率的生产方式来实现的。2017年在全国388个地级及以上城市中,仅有99个城市环境空气质量达标。国内各城市PM2.5和PM10年均浓度分别为44μg/m3和80μg/m3,
学位
城镇化发展背景下新消费革命的来临和社会投资战略的转型推动大城市郊区多数乡村旅游目的地的产生。城郊型村庄作为旅游发展最为活跃的地区之一,其社会文化、经济效益以及生态环境多个方面受到深刻影响,人地系统遭遇剧烈变迁,由此引发的人地交互作用尤其明显。因此,探明乡村地区对旅游开发多重效应的响应,是促进目的地可持续水平的重要途径。本文构建农户尺度的旅游乡村社会—生态系统,确定农户适应性的分析框架、路径方法和概
信息技术和社交媒体的发展给诸多领域带来了大量数据,这些数据能够抽象出网络结构,反映出复杂系统的特性。作为复杂系统基本单元的节点,通过某种关系连接到一起,产生了相互作用并构成了复杂网络。挖掘网络数据背后的潜在信息,成为亟待解决的重要问题。许多机器学习技术的进步,为自动学习网络节点的向量表示提供了可能。  本学位论文针对复杂网络的表示学习问题展开研究。主要目的是将网络中的节点表示成低维实值的向量形式,
学位
本文首先研究分布式Logistic回归处理存储在不同链接计算机中的海量数据,基于交替方向乘子(ADMM)算法,我们将Logistic问题的求解转化为多步迭代过程,并提出了一种通信成本可控的分布式Logistic算法.特别地,在分布式算法的每次迭代中,每台计算机都会更新局部估计量,并同时与邻居交互局部估计量.我们随后证明了分布式Logistic算法的收敛性,由于计算机网络的分散性,因此提出的分布式L
学位
‘X‰?EauD,  (1)J??k?IYA ????(??S?{.?u?IYA?,J?v‘?Log.?lq(0  (2)J??k?h?o U??Graphicallasso?.|)?{.?LADMM?{òT?.?|)L§?)?-?ü?ú?-?ü?,k|-?ü?÷v???h
学位

变点问题在天文、通讯、医学、气象、工业自动控制等诸多人文科技领域都有着广泛的应用,变点研究还丰富了统计诊断和统计建模理论,具有重要的理论价值.变点问题的研究成果可以为人们的决策提供参考依据,为可能存在的风险提供防范措施,所以变点研究一直是学术界关注的焦点课题.尤其是在经济金融上,许多股票、债券等金融资产的价值变动及损益情况都呈现出不能用一般的正态分布来刻画的“尖峰”、“重尾”等特性,因此关于重尾序
学位