面向数据有效学习的机器学习技术研究

来源 :电子科技大学 | 被引量 : 3次 | 上传用户：zhangjm

【摘要】

：

近年来,受益于数据的海量增加和计算资源的日益增强,机器学习在很多应用领域都取得了突破性进展。然而,机器学习技术的性能提升非常依赖于大规模的标记数据集,尤其是深度学习

【作者】

：

吕凤毛

【出处】

：

电子科技大学

【发表日期】

：

2018年01期

【关键词】

：

机器学习数据有效学习非参贝叶斯深度神经网络领域自适应

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近年来,受益于数据的海量增加和计算资源的日益增强,机器学习在很多应用领域都取得了突破性进展。然而,机器学习技术的性能提升非常依赖于大规模的标记数据集,尤其是深度学习,由于其训练过程需要拟合大量的参数,在标记数据不够充分的情况下,很容易出现过拟合现象。对于很多任务来说,人工标注一个大规模的训练数据集是一项非常棘手的工作,需要耗费大量的人力成本和时间开销。数据有效学习旨在提高机器学习技术对数据的利用效率,减少其对大规模标记数据的过分依赖,在近年来受到了大量的关注和研究。通过研究面向数据有效学习的机器学习技术,有助于提高机器学习的实用性,降低其相关应用的开发成本,并使其能够更好地应对数据稀缺的学习任务。本文主要内容分为五个部分,以数据的有效学习为核心,分别从模型的自适应学习和数据的领域自适应两个角度探讨了如何在标记训练数据不够充足的情况下实现机器学习。其中,论文的前三个部分从模型的自适应学习出发,重点研究利用非参贝叶斯、黑箱优化等技术使机器学习能够根据训练数据的具体规模和复杂程度自适应地选择模型,避免在训练数据较少时因模型过于复杂导致过拟合现象发生;在标记数据不足的情况下,除了从模型本身出发,还可以通过从其它学习任务的现成的标记数据中迁移知识,减少机器学习在当前任务下对标记数据的依赖,论文的后两个部分从此角度出发,重点研究基于领域自适应的数据有效学习技术。论文各部分的研究内容具体如下:1.针对小样本场景下的多元离散数据分类提出了基于离散隐高斯过程的生成分类模型,采用离散隐高斯过程对各类多元离散数据的生成过程进行建模,通过学习数据的连续表示克服多元离散数据的数据集稀疏问题,从而更加有效地对类条件概率进行估计。由于高斯过程的非参贝叶斯特性,算法能够根据训练数据的具体规模和复杂程度,自适应地调整模型,降低标记训练数据过少时所存在的过拟合风险。2.提出了可判别的离散隐高斯过程,将所有类别的训练数据通过一个单独的离散隐高斯过程统一建模,并使用Fisher判别分析对数据连续表示的后验分布进行正则化,使得离散隐高斯过程能够学习到更加有利于多元离散数据分类的连续表示。算法同时结合了离散隐高斯过程对小规模训练数据的生成建模能力和Fisher分析的判别能力,能够在标记训练数据较少的情况下有效实现多元离散数据的分类。3.提出了基于分布估计算法的神经网络结构自适应学习方法,相比高斯过程,神经网络能多层抽象数据,学习到数据更好的表示,但其过于复杂的网络结构使其在训练数据较少时容易遭遇过拟合。算法从神经网络结构优化的角度出发,利用分布估计算法构造最优解在解空间的概率分布并不断对其进行更新,实现网络结构的寻优,使其能根据训练数据的具体特点自适应地选择网络结构,防止因网络结构过于复杂在小数据学习任务上发生过拟合。4.针对图像分类提出了基于深度生成模型的领域自适应方法,利用深度生成模型实现数据的迁移,通过让源域与目标域的生成网络共享相同的语义层参数,以此生成带有特定标记的目标域数据,并随之将其当作训练数据以增强分类器在目标域任务上的判别能力。5.针对图像分割提出了基于结构增强的领域自适应方法,算法通过在全卷积网络的特征层面和输出层面同时增强目标域图像的结构化信息实现有关图像分割任务的领域自适应,能够显著增强分割网络的迁移能力,减少其对标记数据的依赖。然而,当前的工作仍然存在诸多限制,在未来的工作中,将重点针对深度高斯过程、复杂任务中的神经网络结构优化、基于神经网络结构优化的领域自适应等问题进行进一步的探索。

其他文献

三维仿真技术在化工职业教育中的应用

研究了将三维技术应用于化工专业教学相结合。探讨了利用三维仿真作为化工厂现场实习的补充。试用结果表明,三维仿真系统能够充分调动学员积极性,培训效果显著提高,并为新的

期刊

石化装置三维模型专业教育

中国近代一些城市规划图的评析

中国近代一些城市,其中有帝国主义侵占的港口城市,也有一些国民党统治中心城市,本文对这些城市的城市规划图,从制定的历史背景,所依据的规划理论与思想,规划图的构图形式等方

期刊

城市规划工作对角线都市计划方格网城市规划理论日占时期建筑群现代建筑运动放射路铁路附属地帝国主义国民党

大学生亲子互动问卷的编制及其与抑郁的关系

自编《大学生亲子互动问卷》,选取125名被试进行问卷初测,并采用探索性因素分析建立问卷的因子结构;运用编制好的亲子互动问卷和抑郁自评量表(SDS)对306名大学生进行纸笔测试

期刊

亲子关系亲子互动抑郁

地铁荷载下隧道周围加固软黏土应变累积特性

通过对上海地铁四号线海伦路站附近隧道周围加固软黏土进行应力控制的循环三轴试验,研究了列车循环荷载作用下加固软黏土的累积变形特性.充分考虑土体围压、固结比、轴向循环

期刊

地铁振动荷载加固软黏土动态循环三轴试验残余应变对数关系曲线

基于多分类Logistic回归模型的儿童网球消费动机影响因素研究

目的研究影响儿童网球消费动机的重要因素,引导网球消费市场的扩大以及促进后备人才数量的增长。方法以武汉市200名6~12岁参与网球运动和消费的儿童为研究对象,用多分类Logis

期刊

儿童网球消费动机多分类Logistic回归模型影响因素

城镇化进程中农村留守儿童体育锻炼的现状及对策研究——以广西百色市为例

运用文献资料法、访谈法、问卷调查法、数理统计法等研究方法,对百色市农村留守儿童体育锻炼的现状进行调查和分析,指出其参加体育锻炼相对较少。文章分析了影响其参加体育锻

期刊

百色市农村留守儿童体育锻炼现状对策

一站式服务跑出登记“加速度”——俄罗斯不动产登记的启示与借鉴

<正>俄罗斯高度重视不动产登记工作,近年来不断加强人力物力投入和科技支撑,在较短时间内建立了较为先进的制度和技术体系,促进了营商环境优化。前不久,自然资源部有关司局派

期刊

不动产登记俄罗斯俄罗斯联邦一站式服务启示与借鉴加速度

分类推进国有企业改革

<正>国有企业既要承担社会职能和维护公共利益,又要提高企业效率实现保值增值。国企改革本质目的就是在上述两者之间找出最佳平衡点。结合当前我国国有企业面临主要问题、最

期刊

国有企业改革国有资本投资分类推进混合所有制企业国企改革投资运营专业化重组国资委政资不分员工持股计划出资人

旧路拓宽工程的病害特征和机理

以重庆市和上海市为依托,对山区和平原地区的旧路拓宽工程及其相关病害进行系统的调研和分析.结果表明,旧路拓宽工程中的新老路基结合方式主要取决于地形地基条件、拓宽范围

期刊

旧路拓宽新老路基结合病害机理不协调变形

面向数据有效学习的机器学习技术研究

其他学术论文