论文部分内容阅读
在数字信号处理和机器学习领域中,稀疏表示是一个基础且重要的研究问题,并在大量的实际应用中均表现出优异的性能。稀疏学习是一类基于稀疏表示的机器学习方法。经典的稀疏学习模型是基于零范数约束的线性回归模型,是一个NP-Hard问题。LASSO问题的提出使得稀疏学习问题从凹问题变成了非平滑的凸问题,从而奠定了稀疏学习成为一个热点研究方向的基础。尽管存在多种改进的LASSO模型,它们仍不能很好地处理呈非线性分布的数据,也不能充分地挖掘和利用数据的内部结构。为此,论文将在核(非线性)稀疏学习模型构建和结构稀疏学习模型构建两方面开展理论和算法研究。另外,由于智能电子终端设备的迅猛发展使得基于数字媒体数据的智能应用需求不断扩大,智能图像检索成为了现代互联网应用中的一个核心研究内容。一方面,人脸识别作为图像检索问题的特例,在遮挡等扰动情况下的鲁棒学习算法仍需进一步研究。另一方面,“不受限于数据模态”是构建新一代图像检索系统的基本要求,构建基于跨模态学习的检索技术是实现这一目标的重要途径。跨模态学习的目的是实现不同模态数据的直接匹配。然而,模态差异性的存在使得这种直接匹配难以实现。为此,在应用研究方面,论文将开展基于结构稀疏学习和跨模态学习的智能图像检索方法研究。论文的贡献主要包含以下几个方面: (i)提出了基于核坐标下降的核稀疏学习方法和基于核同伦的核稀疏学习方法。其中,核坐标下降算法的核心思想是在固定其他坐标分量的前提下,对每一个当前坐标分量分别进行更新。而核同伦算法则在整个优化过程中维护一个支撑集合,并不断地对该支撑集合添加激活原子和剔除非激活原子。此外,在这两个核稀疏学习优化方法的基础上,针对人脸识别问题,论文提出了一种海明核构建方法,其核心思想是通过利用局部图像特征来构建基于非欧距离度量的核学习模型。对比研究表明,论文所提方法能更好地解决困难人脸识别问题中的小样本训练、随机噪声、局部遮挡以及剧烈光照变化等问题,具有更好的鲁棒性。 (ii)提出了基于特征结构学习的判别子空间学习算法,其目的是使所学目标子空间特征对局部遮挡等局部扰动情况具有更好的鲁棒性。该方法利用特征的局部结构对目标子空间进行稀疏约束,从而使目标子空间建立在具有局部部件的基向量基础之上。因此,样本数据的目标特征表达由具有不同局部部件的基向量的相关系数组成,进而可以更好地处理局部遮挡等图像的局部扰动问题。基于所构建的数学模型,本文还提出了一种学习多个并列判别子空间且进行子空间特征融合的方法,从而可以学习更为准确的局部部件。在两个国际著名人脸数据库上的实验对比表明,本文算法具有更好的鲁棒性。尤其是在具有局部遮挡和局部光照的人脸图像子集上,本文算法的识别性能提升十分显著。 (iii)提出了一种跨模态协同线性回归方法。该算法通过在回归目标空间学习一个能够联系不同模态的信息关联矩阵,实现了跨模态数据的交流和互补,使目标特征具有更好的鲁棒性。因此,在学习模型构建方面,该方法与传统的采用隐子空间来实现模态间信息关联的方法显著不同。此外,该方法具有两个优点。其一,该方法可适用于处理不同模态数据部分缺失的问题。这一点非常适合于图像-文本跨模态检索任务,其中图像数据或者文本数据通常并不成对出现。其二,该方法的学习模型紧凑,与训练样本数量成线性关系,核心算法收敛速度达O(1/t2)。因此论文所提方法具有良好的大数据处理潜力。在四个国际公开的“图像-文本”跨媒体检索数据库上的对比实验结果表明,所提方法的检索精度均超越已有的最好方法。 (iv)提出了一种可直接计算跨模态数据相似度的学习方法。不同于传统的跨模态隐空间学习算法,本文所提方法的核心思想是学习一个双线性跨模态相似度函数,并引入矩阵核范数来挖掘隐含于训练样本的低秩结构,从而提高学习模型的分类鉴别能力。此外,该方法可处理弱配对数据,打破了跨模态学习算法要求样本成对匹配的限制。在“图像-文本”跨媒体检索应用中,本文算法在两个国际著名多媒体数据库上的跨模态检索性能均已经超越已有的最好算法。实验结果验证了本文双线性相似度函数的有效性以及对跨模态数据的强大的学习能力。