基于视图和样本相似度的多视图分类模型

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:yang176239053
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据存储能力的不断发展以及数据采集技术的日益进步,现实生活中生成并收集了大量的数据。通常来说,同一个数据对象可以存在不同的表现形式,这种类型的数据称为多视图数据。多视图数据中每个视图从不同的方面描述同一对象,因此包含了对象的不同特征信息。对于多视图数据,常用的单视图学习方法通常直接将所有视图串联成单一视图处理,然而当每个视图特征维度较大时容易产生过拟合,同时这种方式忽略了多视图数据的内在特性。如何有效的融合多个视图的特征信息,以弥补单个视图信息的局限性一直是重要的研究热点,这类方法被称为多视图学习。近年来,大量的多视图学习方法被相继提出。然而,已有的研究工作主要关注于(1)捕获不同视图的一致性和互补性信息(2)通过利用视图对间的相似性信息来捕获视图间的潜在关系。此外,对于后者,我们发现已有的计算视图相似度的方法并不能真实捕获视图间的相似性。为了解决以上问题,本文提出了一种基于距离相关系数的视图相似性计算策略以有效的捕获视图间真实的相似性。此外,本文针对多视图分类问题提出了一种新的多视图学习方法——基于相似度保存的有监督多视图潜在空间学习(MELTS)。其旨在通过保存视图对间的相似性信息以及样本对间的标签一致性信息以学习更有效的潜在表征。本文的主要贡献可以概括为以下几点:·本文提出了一种基于距离相关系数的视图相似性计算策略。在探索不同视图间相似性时,多视图数据中不同视图的特征维度通常不同,这给视图间相似度的计算带来了很大的挑战。针对这一问题,本文发现目前已提出的视图间相似度计算方法在数据样本数量较大或样本对间距离过大时可能无法对视图间的相似度进行准确计算,并提出使用方法——距离相关系数(distance correlation)作为替代以准确捕获视图间真实的相似性。·本文提出了一种新的多视图分类方法MELTS。目前一些基于一致性和互补性原则的多视图分类方法通过增大不同视图对之间互补信息的差异性以学习潜在表征,然而不同视图之间存在着潜在的相互关系,鼓励不同视图对之间的互补信息尽可能的差异会忽视视图对之间真实的相互关系。MELTS通过使用视图间相似性保存机制和样本间一致性保存机制,能够同时捕获(1)不同视图对间的相似性信息以及(2)不同样本对间的标签一致性信息,以此揭示视图间的相互关系,同时提升所学表征的判别能力。·本文分别在合成数据集和广泛使用的真实数据集上进行了实验。综合的实验结果说明了使用距离相关系数能够有效的捕获视图间的相似性。此外,对于MELTS方法,实验从分类效果、核心机制有效性、参数敏感性、收敛性、所学表征有效性、运行效率等多个方面对其进行了全面的分析。综合的实验结果说明了MELTS的有效性。
其他文献
人工智能是引领未来经济社会发展的关键技术之一,近年来世界各国纷纷将其上升至国家战略层面。图书馆事业中人工智能同样火热,并得到了广泛研究与应用,公共图书馆中也出现了基于人工智能的智慧化服务。对于公共图书馆而言,这正是一个谋求变革与创新的机会。所以,充分了解人工智能在国内外的公共图书馆智慧化服务中的应用及现状,并以上海地区为案例对上海的公共图书馆进行调研,分析其不足并借鉴其优秀做法,有利于促进人工智能
学位
近年来,深度学习技术飞速发展,尤其是在大规模数据集的推动下,分布式深度学习系统在学术界和工业界获得了广泛应用。分布式深度学习系统普遍采用同步数据并行来训练模型。同步随机梯度下降(SSGD)作为最常用的分布式同步数据并行训练算法,其在每次一迭代中都涉及网络通信。然而,通信开销在通信带宽受限的分布式环境中是昂贵的。为了降低通信开销,一种直观的方式是增大通信间隔,即不是每一次迭代中都进行通信,而是每隔若
学位
21世纪随着知识经济时代的到来,知识的产生、积累、传承与创新成为知识经济发展的核心要素,知识在主体方以及接受方之间的扩散可以促进知识的创新与再利用。图书馆学、情报学及档案学(下文简称图情学科)作为当代培养新型信息知识人才的重要学科,探究国内外图情学科知识扩散情况可以明晰学科发展特征、总结学科知识利用与创新的进程以及了解国内外图情学科发展差异,并为国内图情学科未来发展趋势提供借鉴意义。本文以文献间的
学位
近年来集成电路在各个领域中的应用越来越广泛,在政府相关政策的大力支持下,集成电路芯片制造技术的发展也越来越迅速,位居整个电子信息产业的核心地位。仅构建技术创新合作网络还远远不够,当前中国半导体产业已经在政府扶持下,度过了起步阶段并有了很大的发展,结合中国国情并从前期的发展态势中,对未来几年乃至几十年的发展趋势进行预测,根据研究结论对市场变更做及时调整,以达到最快实现实力赶超、在国际竞争中占据优势的
学位
随着人们环境保护意识的不断提升、对环境质量要求的日益提高,如何安全有效的处理污水将面临着新的挑战。利用太阳能的光催化技术(Photocatalysis,PC)具有高效、无二次污染的特点,是科研领域的研究热点。在一定波长的光照射下,半导体光催化材料会产生具有无选择性的氧化活性粒子(羟基自由基·OH、光生空穴h+和超氧自由基·O2-等),通过这些活性粒子可将污水中的有机污染物矿化成CO2、H2O等无机
学位
论证与建模是当前科学教育领域研究的热点。随着新课程改革的深入,“核心素养”体系的提出对学生建模与论证能力的发展提出了新的要求。模型建立与完善的过程也是不断论证的过程,将二者有机结合起来可以全面提升学生的核心素养。目前,国内对于论证式建模教学的研究较少,缺乏相关的教学策略。SNP(Science Negotiation Pedagogy,以下简写SNP)是一种整合建模与论证的教学模式,为我国开展相关
学位
随着信息技术和社交媒体的发展,以照片、图表、视频等为代表的视觉资源在当今社会受到了前所未有的重视,成为当下高中英语教材中的重要组成部分。《普通高中英语课程标准(2017年版)》首次提出看的能力的概念,反映出新媒体时代背景下作为看的载体的视觉资源在表达意义、传递信息方面的重要作用。在新课标的指导下,上海教育出版社和上海外语教育出版社分别修订出版了《普通高中教科书·英语(必修一至必修三)》并投入使用,
学位
学术机构的测评是信息计量学研究和应用的重点之一。本文在多维度引文分析的体系下,用多层嵌套的天际线算法观测和评价学术机构影响力,给出了多维度引文视角下面向学术机构的多维度影响力测评方案,该方法能在一定程度上规避单一评价维度、人为权重设定和数值体量影响等问题,契合了学术评价体系改革中多元化以及去绝对化评价的理念,也呈现出多维引文分析方法和多维排序算法的综合。在实证研究方面,本研究以Web of Sci
学位
自1992年Goldberg提出第一个邮件推荐系统Tapestry,并提出协同过滤的思想以来,用户的行为数据和基本信息等便成了推荐系统不可或缺的基底,而自推荐思想诞生以来,针对推荐系统也有很多棘手的问题,如推荐系统的冷启动问题(对于没有行为数据的用户无可推荐)、协同过滤算法相似度计算的数据稀疏度过高问题、推荐的准确性问题等。本文尝试在社区生活内容系统场景下解决上述三个问题,研究设计了基于用户行为的
学位
本研究关注在我国国际化学校中任教的中国籍教师的职业认同,旨在深入探究国际化学校中国籍教师职业认同的建构过程、内涵维度和影响因素。本研究以上海市六所国际化学校中的十二位中国籍教师为访谈对象,运用一对一半结构式访谈的方式收集到近十七个小时的访谈录音,访谈转录文本约二十一万字,借助扎根理论的三级编码方式处理访谈数据。结合社会认同理论,研究者将十二位中国籍教师的故事一一拆解,根据社会认同理论提出的个体认同
学位