加权解耦语义表达的多源领域自适应方法

来源 :广东工业大学 | 被引量 : 0次 | 上传用户:teachme
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代和互联网技术的快速发展,产生了各种不同形式的数据,而这些不同形式的数据对提高深度学习模型的泛化性能起着重要的作用,但在实际应用中,大部分的数据都是依赖人工标注,成本较高,严重限制了深度学习的推广和应用。领域自适应不仅可以打破训练数据集合测试集数据的独立同分布的假设,而且可以利用有标签的迁移源数据和没有标签的迁移目标数据训练得到具有良好泛化能力的模型,是扩展深度学习应用场景的重要研究方向。而多源领域自适应方法可以被利用到多个迁移源的信息的场景中,具有重要的研究和实际价值。目前,将单迁移源的领域自适应方法扩展到多迁移源场景是多源领域自适应的重要研究方向之一,但这种方法会产生负迁移,即在源领域上学习到的知识,对于目标域上的学习产生负面作用。而目前缓解负迁移的主流方法:1)增加迁移源数量,但原有标签的数据难以获取,或人工标注成本过高,所以这种方法难以实现。2)减少不同领域见数据分布的差异,提取领域不变的特征。所以多源领域自适应方法需要在多个源领域信息中提取领域不变信息,而选择合适的迁移源特征来提取可迁移的信息是具有挑战的。又由于数据分布的基础是复杂的流形结构,领域不变的语义信息和领域特有的信息通常是高度耦合的,如何彻底地移除语义特征中“残留”的领域信息,也是非常具有挑战的。为了解决上述的两个困难与挑战,本文具体工作如下:(1)针对在多个迁移源中选择合适源领域信息问题,本文提出的方法是一种基于多种距离度量框架的多源领域自适应方法。通过采用不同的特征距离度量方法策略(欧式距离聚合方法,分布距离度量Wasserstein距离的聚合方法),计算不同迁移源的语义特征和迁移目标的特征计算距离,以计算出最合适的迁移源选择权重,最终提取到更好的领域不变特征。(2)针对数据分布的复杂,难以彻底移除语义特征中“残留”的领域信息的问题。本文将基于数据生成背后的因果机制,假设语义变量和领域变量之间是相互独立的,并且观测数据是由语义变量和领域变量共同生成的。在考虑到领域信息可能在不同领域之间存在较大的差异,本文假设语义隐变量在提取领域不变表示中起着重要作用。基于以上假设,本文提出一种解耦的语义表示领域自适应框架,首先通过变分自编码器重构独立的语义隐变量和领域隐变量,然后通过对偶的对抗学习对语义变量和领域隐变量进行解耦,从而提取到解耦的语义信息和领域信息。但是本文采用的自动变分编码器的模型与传统的不同,是引入了解耦模块的,而且在这模块中,两个对抗模块是分别置于语义隐变量和领域隐变量之下,其目的是将所有领域信息提取到领域隐变量中,并且将所有语义信息都推送给语义隐变量,以解决“残留”的领域信息问题。(3)为了展现本文提出的加权解耦语义表达的多源领域自适应方法的性能和效果,本文最后使用领域不变的语义表达进行图片分类。选择了众多优秀的或具代表性的14个单源领域自适应方法,3个基于分布对齐自适应方法,6个多源领域自适应方法,在三个公开的数据集中进行对比实验。为了进一步验证本文提出的方法的性能,还增设了可视化实验,分离实验以及定量分析。
其他文献
随着公众、政府和投资者认识到气候变化的重要性,社会、经济和环境的可持续发展成为了社会各界的关注焦点,清洁能源产业也日益发展壮大。绿色债券是绿色金融理念的重要部分。我国近年来注重绿色债券市场的建设与发展。对于企业来说,绿色债券的发行可以扩大绿色企业的融资渠道,缓解绿色企业的融资压力。作为关系民生和日常生活的必要能源,电能的开发利用在世界能源紧张、气候变化等问题上具有重要意义。基于此,本文选取我国的龙
学位
新零售当前的发展竞争激烈,为了在短时间内获得资源,大企业多采用并购和直接入股的方式,连续并购趋势明显,苏宁易购也不例外。但是连续并购绩效多是采用普适性的方法进行研究,并未结合公司特点进行评价,因此本论文就以苏宁易购为例,结合公司连续并购动机和新零售业务来针对性进行连续并购绩效评价。基于此,本文探究苏宁易购为发展新零售连续收购天天快递、迪亚(中国)、万达百货以及家乐福中国四家公司的绩效。首先以协同效
学位
在当前互联网蓬勃发展的时代,每天都会产生海量的文本数据。如何将这些非结构化的文本进行结构化表达,从中发掘出有价值的信息,已经成为时下自然语言处理领域的研究热点。经过广大学者的多年研究,目前较为有效的方法是构建知识图谱,而构建过程中的关键技术是实体关系抽取,其旨在从文本中识别出实体,并根据上下文语境确定实体之间的语义关系。此前基于统计学的方法,存在耗时费力且可移植性差等问题。近几年深度学习技术逐渐被
学位
随着医学图像处理方法不断地进步,图像处理算法对于医学工作有着必不可少的帮助作用。肾脏CT图像分析通过电子计算机断层扫描技术,对肾脏相关疾病和并发症的医疗诊断和治疗有着至关重要的临床价值。肾脏CT图像分割任务中存在一定特征复杂的问题,使肾脏以及病变区域的分割变得十分困难,严重影响算法的分割效果。近年来,无论传统图像分割算法还是深度学习分割方法都难以取得非常令人满意的表现。另一方面,因为网络结构参数量
学位
生态环保目标和政策的出台,提升了我国环境保护的地位,并促使环保产业实现了进一步发展。过去五年,环保企业数量的增长印证着产业快速发展的趋势,但随着市场容量的增加,产业内的竞争也相伴扩大,环保企业迫切需要提升自身的竞争力。并购是提升企业竞争力的重要途径,跨境并购海外优质标的更是能帮助企业在短时间内成长为具有国际影响力的大型企业。我国环保产业起步较晚,更需要通过跨境并购获取领先的技术资源,增进企业发展速
学位
近年来,我国专利数量和质量持续稳定增长,专利相关数据已逐渐成为评估企业研发创新水平的关键指标之一。大部分学者在考察企业创新能力与股票收益间的关系时,偏重于以专利数量维度评估企业创新能力,而在以专利质量衡量时未能充分考虑到行业特征及专利价值。本文从专利数量和质量维度综合考量企业的创新能力,并在此基础上建立创业板市场的多因子选股模型,从而验证投资具有创新能力的企业是否可以在资本市场上获得超额收益。本文
学位
光照估计是计算机视觉和图形学研究领域的经典问题之一,其目标是从图像、视频等输入信息中估计出真实场景的光照信息。光照估计在计算机视觉和图形学等领域应用广泛,尤其是在增强现实领域,光照估计是极其重要的一步,它的效果可以直接影响到虚拟物体的真实感体验。传统的光照估计算法是通过专业设备的数据采集和人工测量来获取较为准确的光照信息,但其过程繁琐且过于依赖辅助设备,导致该类算法只适用于特定场景。而基于深度学习
学位
随着我国资本市场的不断发展,法律逐步放松了对股票回购的限制,许多公司开始通过集中竞价的方式在公开市场中回购股票。据数据统计,以市值管理为目的且存在控股股东股权质押的公司明显多于其他上市公司,这表明上市公司股票回购与控股股东股权质押之间关系紧密,存在股权质押的公司往往更倾向于股票回购行为。目前,大多数研究是针对国外的理论与假说进行的实证分析,以探究二者的关系,针对具体公司的股权质押下的股票回购案例研
学位
伴随着我国数字经济的高速发展以及城乡居民生活水平的稳步提高,许多民众的日常生活越来越离不开智能设备,并随之产生了海量的多媒体数据。然而常见的搜索引擎工作方式依局限于单模态内,这导致了在多模态场景下检索信息的低效和困难。因此,实现跨模态检索不仅是人们对便捷检索信息的迫切需求,还符合新时代下互联网的发展进程。然而,当前专注在视频信息和语音信息上构建语义桥梁,以实现视频和语音的跨模态检索方法却甚为稀缺。
学位
近年来,由于金融机构流动性问题不断导致金融危机发生,监管当局越加关注流动性风险问题。在国内外学术界中,流动性风险问题一直被广泛的讨论,2008年金融危机中,流动性风险带来的代价是惨痛的,传统的流动性风险管理方式已不能适应迅速发展的金融市场。在中国,随着经济蓬勃发展、金融市场的完善、以及商业经营方向的转变,商业银行的流动性风险的成因及表现更加多样化,加大了监管当局对银行流动性风险进行管理的难度。在传
学位