多媒体数据挖掘中的跨数据域迁移学习

来源 :浙江大学 | 被引量 : 0次 | 上传用户:hellogph
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在数据挖掘和机器学习领域中,监督学习模型一直有着广泛的应用。然而,模型中需要用到的监督信息,即有标注的数据往往较难大规模地获得。而对数据进行标注,往往需要大量的人力、物力。为了解决研究问题中标签信息匮乏的困难,专家学者们提出了迁移学习的概念。在迁移学习问题中,研究对象所组成的数据集被称为目标域,有充足标签信息并能起辅助学习作用的相关数据集被称为辅助域。为了解决各种实际问题,研究人员致力于从辅助域里学习所需要的知识,以帮助目标域里模型的学习。本论文深入分析了跨数据域迁移学习问题,并在研究大量国际经典文献工作的基础上,提出了多种跨数据域迁移学习分类模型和算法。本文的主要工作和创新点在于:1.提出了一种基于流形的鉴别迁移学习分类模型。我们观察到现有的很多跨数据域文本分类的方法,都采用了联合矩阵分解模型来学习各个数据域的低维因子。然而,由于矩阵分解模型着重挖掘的是数据内在的聚类结构,这些算法普遍忽视了数据因子在分类任务中理应具有的鉴别属性。为了解决这个问题,我们将分类模型施加在学习所得的数据因子上,并以损失函数为调节项对因子进行进一步的优化。此外,这些基于矩阵分解的迁移学习算法学习得到的数据因子在不同域之间还是存在很大的差异性。我们在数据各个维度的因子上引入刻画域间差异性的统计度量,并且以最小化这种差异性为目标,进一步优化所得的数据低维因子。2.我们提出了一种跨数据域分类模型:通过学习各个数据域共享的子空间来实现知识的迁移。在这个模型中,我们提取了各个数据域中特征上保持稳定的代表性数据,并以这些数据来构建子空间的基向量。另一方面,为了加强不同域的数据在这个子空间中的统计相似性,我们通过最小化域间差异性,对子空间中的数据因子进行了进一步的优化。3.提出了一种融合数据多视角信息进行跨数据域分类的算法。在算法中,我们鉴别地提取了不同域的数据的多视角特征,将那些反映类属本质的特征保留了下来。我们在提取的特征上引入刻画域间差异性的统计量,通过最小化域间差异性对特征进行优化。进一步,我们在语义类别的全局结构和数据的局部几何结构上对标签的预测结果进行了约束,最终提高了目标域中的分类准确率。
其他文献
目的探讨预防全髋关节置换术后下肢深静脉血栓形成(deep venous thrombosis,DVT)的护理方法。方法对50例行全髋关节置换术后患者(观察组)给予积极的预防性护理干预,对照组50
近年来,建筑行业发展迅速。电气节能作为其重要组成部分,也开始受到人们的关注。电气节能的有效实现,将为建筑工程节省大量的电能,提高我国建筑行业在全球竞争中的发展潜能,这是实
面对环境的日益恶化和城市化进程的加快,园林工程的施工获得了社会上的高度关注.文章针对园林工程施工的合理管理组织形式展开了讨论,并提出了一系列建议.
目的探讨PDCA护理管理对于白血病患者PICC护理的临床应用价值。方法选择我院从2016年1月至2017年12月收治的白血病患者106例,分成两组,当患者在进行PICC置管时对照组采用常规
随着软件系统日趋复杂化,许多因素都影响着软件系统的正常运行,这些因素可能包括系统的配置、系统的用户输入、内部事件等。众多因素的可能取值之间形成了一个庞大的组合空间
在园林绿化工程中,土方地形工程是相当重要的一部分,而较高水平的施工技术对于保障土方地形工程的效率与质量有着重要的作用与意义.本文阐述了土方施工前的准备性工作,分析了
中国中小企业:家族文化与企业管理王忠民,仲伟周西北大学经济管理学院一、问题的提出在经济体制改革过程顺利进行中的中国,其所有制企业结构呈现出这样的二元性:一种是国有大中型
提高学生的阅读理解能力是英语教学中的主要目的之一,从心理语言学和认知语言学来看,阅读理解能力的提高,离不开对阅读过程的科学分析,而怎样抓住阅读的要素,在教学中有意识
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield