【摘 要】
:
在大数据中,数据的种类较多而价值密度和真实性较低。因此,低质性是大数据的显著特征。聚类是一类重要的数据分析方法,旨在划分数据空间内的对象,使划分结果类内相似而类间相异。随着数据规模、维度、模态的增加,传统聚类方法已不适应数据分析的需求,在低质数据上表现不如预期。因此,本文针对以上问题提出解决方案,研究两种面向低质数据的深度多模态特征聚类方法,有效提高聚类算法在低质高维多模态数据上的聚类效果。本文主
论文部分内容阅读
在大数据中,数据的种类较多而价值密度和真实性较低。因此,低质性是大数据的显著特征。聚类是一类重要的数据分析方法,旨在划分数据空间内的对象,使划分结果类内相似而类间相异。随着数据规模、维度、模态的增加,传统聚类方法已不适应数据分析的需求,在低质数据上表现不如预期。因此,本文针对以上问题提出解决方案,研究两种面向低质数据的深度多模态特征聚类方法,有效提高聚类算法在低质高维多模态数据上的聚类效果。本文主要贡献如下:(1)提出基于多模态融合的高维数据高斯混合模型深度聚类方法。利用深度神经网络提取各模态独有特征,降低数据维度,浓缩数据信息,利用多模态融合网络融合各模态特征,获取融合模态特征,利用高斯混合模型进行特征聚类,迭代获得聚类结果。(2)提出基于清晰模型监督的多模态深度降噪非负矩阵分解聚类方法。为清晰数据添加噪声,迫使深度神经网络学习含噪数据隐藏的数据模式,利用清晰模型监督网络各层特征学习,利用非负矩阵分解学习具有可解释性的聚类特征,端到端地完成低质数据聚类任务。(3)在标准数据集上进行所提出的两种方法的验证实验。实验结果表明,两种方法均能捕获数据固有模式,获得较好聚类性能。其中,基于多模态融合的高维数据高斯混合模型深度聚类方法展现了对多模态数据的有效融合能力,基于清晰模型监督的多模态深度降噪非负矩阵分解聚类方法证明了清晰模型监督和非负矩阵分解对聚类效果的提升作用。综上所述,本文提出两种面向低质数据的深度多模态特征聚类方法,两者均有较好的聚类表现,能够有效完成低质数据聚类任务,为进一步的下游数据分析任务提供了坚实的基础。
其他文献
基于草图的图像生成是计算机视觉中一个亟待解决的重要问题。对于手绘草图来说,不同用户对同一个对象的表达有巨大的差异,这要求算法模型能够学习草图类别内部巨大的差异。并且,草图与图像之间存在着尺度与纹理间的巨大差异,这种特征之间的鸿沟使得草图生成图像模型训练更加困难。为了填补草图与图像之间的特征鸿沟,本文提出了由草图到边缘图,再由边缘图到图像的两阶段草图生成图像模型,并应用该模型实现了基于多类别草图的图
当下的工业物联网(Industrial Internet of Things,IIo T)包含了承担多种不同业务的节点。IEEE 802.11ac/ah协议共同应用于IIo T中,可以满足复杂的传输需求。信道绑定技术和限制接入窗口(Restricted Access Window,RAW)机制是IEEE 802.11ac/ah协议在媒体访问控制(Media Access Control,MAC)层
网格作为工业界建模,模拟,有限元分析计算以及多媒体,游戏开发等计算机三维图形应用中几何物体的表示方法,在信息时代中起着不可或缺的作用,它使简单的模型文件可以显示在屏幕上,进行动画渲染以及仿真计算。在计算机图形领域的快速发展的当下,网格的生成与相关算法成为该领域的一个热点。现在的表面网格中,广泛应用的有三角形网格和四边形网格,而四边形网格由于其适用于纹理贴图与离散计算的特性,更是发挥着越来越重要的作
计算机视觉在体育视频方面已经越发的成熟,并且在很短时间内获得了长足的发展。其中目标跟踪是热门研究方向之一,多目标跟踪是现阶段要解决的难点问题。本文目的是在现有目标跟踪算法基础上,针对足球转播视频的场景下进行改进,完成对小目标球员的跟踪,并将算法应用于移动端进行实时跟踪。在预处理阶段,本文对于原始的足球转播视频存在大量镜头切换的现象,提出基于主色率和帧差阈值双阈值限定的视频镜头检测算法,对原始足球转
隐喻普遍存在于人类的日常表达中,据统计,平均每三句话就包含一句隐喻。隐喻是一种常见的语言表达方式,也是一种重要的认知手段。人类习惯于借助已知的具体概念来描绘未知的抽象概念。准确地识别出隐喻现象能够帮助人们更好地理解复杂的抽象概念,深入地挖掘语言中的深层含义。目前,隐喻识别已经成为自然语言处理领域中的一个重要问题,被广泛应用于信息抽取、观点挖掘、机器翻译、情感分析等任务中。随着社交媒体的蓬勃发展,语
芯片行业不断发展,IC设计规模和复杂程度进一步提高,IC验证已成为高性能芯片研发过程中的一个重要瓶颈。同样,FPGA系统的验证工作存在复杂性和全面性的问题。当前仿真验证与形式化验证技术主要针对系统实现的中后期,对于早期设计与需求的一致性验证上未能发挥作用。而越早开始系统验证工作,发现错误后的改正成本越低。从验证的全面性角度考虑,验证工作应尽量覆盖数字系统的设计实现过程,做到问题尽早发现,提高验证效
面对数据爆炸式积累的大数据时代,从海量数据中如何高效的挖掘信息成为了一项有意义的研究课题。分类是数据挖掘中基本且重要的技术,在生物特征识别、文档分类、医学诊断等领域有着广泛应用,而数据缺失是进行分类任务时需要处理的一个常见缺陷。真实数据集中通常会存在数量不等的数据缺失,从而增大了数据分析的难度。在此背景下,本文论述了一种不完整数据分类辅助缺失值填补的多任务学习模型,以提高缺失值填补性能为切入点,研
目前,随着预印本数量的不断增长,预印本文献对科研领域以及各行各业都产生了巨大的影响。不同于传统的对已发表论文进行评价时的标准,即论文发表所在期刊的影响因子。这种评价标准对于评估预印本文献的影响力来说并不适用,因为预印本很多还没有被正式出版。因此,如何对预印本文献影响力进行评估就成为了迫切需要被解决的问题。基于上述需求,本文设计并实现了可以对预印本文献的影响力进行评估的系统。本系统的核心是确定预印本
社交媒体的快速发展,为持续监测数百万人的个人健康报告提供了前所未有的机会。健康监测能够对疾病研究起积极作用。传统的以调查为基础的监测方式资源有限,且具有一定的滞后性。微博上大量的自我健康报告数据能够作为传统监测方式所需的正式报告以外的很好的补充数据,辅助相关机构进行疾病研究,帮助发现季节性、地方性、流行性疾病。实现监测的关键一步是识别真正的症状报告微博内容。本文提出了一种针对微博中文短文本的症状提
近年来电子产品日益普及,为人们带来便利的同时,因为长时间不规范用眼而导致患有眼科疾病的人数也在逐年增加。如果不能对眼科疾病进行早期的诊断和治疗,就可能会导致患者最终失明。医疗辅助诊断系统通过对视网膜图像中血管和中心线的形态特征进行分析,能够快速有效的解决眼科疾病的诊断问题。因此获取精准的视网膜血管和中心线分割结果对眼科临床医疗的辅助诊断具有重要意义。近年来已经有大量的研究工作来解决视网膜血管和中心