基于变分自动编码器的特征表示学习研究及其应用

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:a421455206a
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,计算机视觉、语音识别和机器翻译领域深度学习技术取得了极大的成功,其中表示学习领域研究的不断进步起到了很大的作用。表示学习在文本表示、语音等领域贡献极大。学习数据的表示,这使得在构建分类器或其他预测器时更容易提取有用的信息。良好的数据表示对于深度学习算法性能的提升有巨大的意义。而最近几年,有监督的深度学习研究一直占据着主流,研究者们主要围绕着有监督深度学习领域开展研究。有监督信息对于深度学习模型效果的提升是非常显著的,半监督和无监督学习方不如有监督学习方法发展那么快,但是随着时代的发展和数据规模的急速增长,想要获取海量数据的标签信息变得越来越困难,使用少量带标签数据进行训练的半监督学习方法以及无监督学习方法变得越来越重要。在近年,在无监督表示学习领域深度生成模型的研究取得了广泛的成功,例如变分自动编码器,变分自动编码器已成为无监督学习复杂分布的最流行方法之一。变分自动编码器建立在神经网络之上,并且可以使用随机梯度下降方法进行训练。本文在变分自动编码器的框架下提出了一种半监督分类方法。在隐空间引入多个高斯先验,将不同类别的数据隐编码匹配到不同的高斯分布上,并且在隐空间利用学生T分布计算分类概率。模型采用两步训练方式,先进行有监督训练,然后进行无监督训练。经过MNIST、HHAR、REUTERS数据集的实验分析,我们的方法使用少量的有标签数据就能够达到很好的分类的效果,并且具有很好的生成数据的能力。同时,本文提出了一种高斯混合EM算法与自动编码器结合的聚类方法,使用高斯混合分布代替VAE的标准高斯先验和隐空间后验。这样的改进使得隐空间变得更加的灵活、得到的近似后验更接近于真实后验。并且我们在隐空间引入了EM算法进行聚类估计以达到聚类的目的。我们的方法在MNIST、HAR等数据集上也取得具有竞争力的聚类结果。同时,模型可以用于生成逼真的数据样本。
其他文献
2011年10月18—25日珠江三角洲地区出现了一次区域性空气污染过程,重污染区域集中在西部,后期向中部转移,PM10为首要污染物.针对本次空气污染过程的研究发现,此次珠江三角洲
从长期受染料污染的土壤中分离出一株能对甲基橙高效降解脱色的柠檬酸盐杆菌Citrobacter sp.LW-3.菌株LW-3在添加了0.5%(g/100 mL)葡萄糖的MSM-1培养基中,16 h使100 mg·L-1
<正>近年来,随着我国人民消费水平的显著提高,民生食用农产品产量和流通量正逐步增加。从中央到各省市都十分重视冷链物流的发展,并提出扶持政策,社会对冷链物流投资的热情亦
以江苏省某碳纤维生产企业排放的含氰工业废水为研究对象,采用自屏蔽Dynamitron电子加速器(能量0.5~1.0 MeV,束流10~15 mA)开展了处理量为30 m3·d-1的中试实验.通过正交实验
以对某综合性大学本科生的抽样调查数据为依据,从学习态度、学习能力、心理状况和环境适应等四个方面评估新资助政策体系对高校贫困生的教育援助效果。结果显示:低收入家庭的
目的分析1型糖尿病酮症酸中毒(DKA)患儿的电解质和血脂状况,探讨儿童1型糖尿病低钾血症与酮症和血糖纠正时间的关系。方法对1999年1月1日至2004年12月31期间在本院住院且为首
目的探讨肌钙蛋白I等心肌损伤血清标志物对重症胰腺炎患者预后的影响。方法48例本院收治的重症急性胰腺炎患者,检测其入院48h内的肌钙蛋白I(cTnI)、肌酸磷酸激酶同工酶(CKMB)
絮凝是水质净化的重要方法之一.絮凝剂的作用对象主要是水中由不溶性物质形成的憎液溶胶及悬浮颗粒.近年来的研究发现,将重金属离子的某些强配位基团通过化学反应连接到高分
<正> 近年,理论界的一些同志围绕着社会主义公有制经济中的劳动力是否商品的问题展开了新一轮的争论和探讨,这在理论和实践上都具有重要的意义。我认为,主张社会主义公有制经
随着党的十九大的召开,中国国防和军队建设也进入新的阶段。过去5年,我们取得了举世瞩目的辉煌成就,面对前所未有的巨大机遇,一套与世界接轨同时具有鲜明特色的武器装备建设
报纸