跨模态人脸检索研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:liuxiaotiancxks
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息技术和互联网的飞速发展给人们带来了日益丰富的多媒体资源,包括大量的静态图片、视频、文本以及音频数据等。如何从海量数据中准确、快速、完备地检索出我们感兴趣的内容,在大数据环境下的今天有着重大的实际意义。本文将以人脸这种特定的生物特征为素材,细致深入地研究人脸检索问题。人脸检索问题通常是指给定包含某特定人人脸的若干静态图像或视频,从海量的数据中搜索包含该特定人的全媒质数据,包括但不限于文本、静态图像以及视频。这项技术可以被广泛地应用于安防或娱乐领域,例如犯罪嫌疑人追逃,视频智能剪辑等。作为人脸识别领域的一个分支,人脸检索可以直接套用传统的人脸识别方法,然而检索相对于识别有着其鲜明的特点,最显著的一点就是识别任务的主要关注点是准确率,而检索任务除了关心准确率同样关心检索的效率和存储空间。除此之外,一个完备的人脸检索系统应该支持多种模态检索,包括以图像检索图像,以视频检索视频,以及图像视频间的跨模态检索。这就很自然地引出了一系列的研究问题,包括如何表示人脸图像,如何表示人脸视频,如何匹配不同表示的人脸图像和人脸视频,最重要的一点,如何将数据的表示设计得足够精简来应对检索任务存储空间和匹配效率的要求。因此,本文针对人脸检索中存在的诸多问题,从人脸视频的建模出发,围绕跨模态的人脸检索研究展开了以下四个主要工作:  (1)基于协方差矩阵的紧凑视频二值编码学习;该工作主要研究电视剧中的人脸视频检索问题,即给定某角色的一个人脸视频作为查询关键词,在数据库中检索出所有包含该角色的人脸视频片段。为了解决这个问题,我们为大规模的人脸视频数据设计了一种紧凑的具有判别性的二值表示,称之为紧凑视频二值编码。该方法首先通过其样本(即帧)协方差矩阵来对人脸视频进行建模,以统计的方式刻画人脸视频中存在的表观变化。为了引入辨别性信息并获得更为紧凑的人脸视频表示,高维的协方差矩阵被进一步编码成更低维的二值向量,也就是最终的紧凑视频二值编码。具体地,二值编码中的每一位比特通过一个有监督的间隔最大化学习框架学习产生,旨在保证二值编码判别性与稳定性之间的平衡。为了验证该方法的有效性,我们在两个具有挑战性的电视剧数据库中进行人脸视频检索的实验。实验结果展示了该方法相对于其他经典检索方法的优势。除此之外,我们还将该方法在YouTube名人库上与经典的视频人脸识别方法进行了对比,结果显示该方法作为一种通用的视频人脸匹配算法,仅仅借助128位比特的精简表示便达到了不错的性能水平。  (2)基于空间金字塔协方差矩阵群的紧凑视频二值编码学习:此工作延续上一工作的研究方向,即电视剧中的人脸视频检索问题。为了解决像素级协方差矩阵在人脸视频建模方向的不足,即过大的表示体积,模糊的语义解释性,以及对人脸视频帧对齐的不稳定性,我们在像素级协方差矩阵的基础上提出其改进版本,即图像块级协方差矩阵。在此基础上,又进一步提出整合多个不同参数的图像块级协方差矩阵以构成空间金字塔协方差矩阵群,实现了对人脸视频由粗到精的层级刻画。后端的二值编码学习过程同时整合了编码判别性与编码稳定性双重约束,并将图像块级协方差矩阵间的组合系数学习通过多核学习的技术嵌入到二值编码的优化过程中去。最终学习得到的紧凑视频编码成功地被应用于电视剧中特定角色的人脸视频检索,比起上一工作中基础的像素级协方差矩阵,基于空间金字塔协方差矩阵群的改进版本达到了更高的检索精度。  (3)跨欧氏空间与黎曼流形的异质二值编码学习:以人脸的静态图像作为查询关键词检索人脸视频,是一个非常具有挑战性的视觉任务,这个任务主要涉及不同类型数据间的匹配,即静态图像和视频的特征表示往往差异很大。通常,人脸的静态图像被表示为欧氏空间中的点(向量),而人脸视频在最近的一些工作中则被成功地建模为某些特定黎曼流形上的点(协方差矩阵)。这就很自然地引出了一个全新的研究方向,即如何在欧氏空间与黎曼流形间嵌入一个鲁棒的检索框架来实现异质特征的高效匹配。我们通过尝试将两个异质空间,即欧氏空间与黎曼流形,嵌入到一个公共的二值海明空间解决了这个问题。具体地,我们首先通过一个统一框架将两个异质空间分别映射到两个对应的再生核希尔伯特空间,然后再通过一个间隔最大化的学习框架,迭代地优化各自空间内和跨空间范畴的二值编码海明距离,以学习对应两个异质空间的二值编码哈希函数。大量实验证明了此方法相比经典的单模态、多模态二值编码学习方法存在一定的优越性。  (4)属性嵌入的多功能二值编码学习:为了解决大规模的人脸图像检索问题,提出了一种新颖的多功能二值编码学习方法。该方法通过将三个约束条件,即二值编码判别性、二值编码-属性一致性以及二值编码稳定性,巧妙地整合到一个统一的学习框架,进而学习可以同时支持大规模人脸图像检索与人脸属性预测的多功能二值编码。配套着提出的方法框架,我们还建立了一个具有身份和人脸属性双重人工标注的大型网络名人人脸图像数据库CFW-60K。实验结果表明此方法分别在人脸图像检索和人脸属性预测两个任务中超过了经典的二值编码学习方法和人脸属性预测方法。最后,我们希望通过互补优化的验证实验能带给更多学者以启示,即将额外辅助信息联合身份判别性信息一同嵌入二值编码具有重要意义。  综上所述,本文针对人脸检索中存在的诸多问题开展了广泛和深入的研究,提出了四种适用于人脸检索任务的二值编码学习方法。大量实验结果表明,本文提出的方法可以有效地提升多种模态、多种功能的人脸检索。
其他文献
该论文主要论述了在新竞争形式的发展下,如何更加合理、有效地结合各种新技术,创造出更加具有竞争力的平台,为电信带来更大程度上的收益.文章从平台建设的背景入手,首先介绍
面部特征点定位是人脸识别、人脸表情分析、人脸动画等诸多人脸感知等应用中非常关键的一个步骤。尽管经过学者们多年的努力研究,由于姿态、表情、遮挡等因素的影响,非可控场景
系统功能的实现需要控制台、阵列、客户端之间的通信与协同,为此需定制专用的数据传输协议,构建在基于IP技术的网络上,是整个系统实现的基础.该系统最大的特点是客户端功能的
本论文的研究是云南省科技厅国际合作计划的基金资助项目“新型人机接口—电子笔多功能网络视频会议实时通信技术的研究开发”的一部分。该研究项目主要由面向多功能手写笔的
文中对银行计算机系统存在的安全隐患做了详细地分析,并针对计算机安全存在的薄弱环节,全方位地探讨了计算机系统安全解决方法.在此基础上,设计出网络级、系统级、应用级三个
1.研究背景 随着Internet/Intranet技术的日趋成熟和普及,越来越多的政府、企事业,特别(?)一些跨地域大型企业、跨国公司等都积极采用新技术,通过Internet/Intranet将部署(?)各
网格是一种新型而复杂的分布式计算系统,传统的资源管理和任务调度方法往往不能很好的应用于该计算环境.为此,我们利用效益函数的概念把Min-min和Sufferage两种启发式独立任
现代软件开发采用工程化的方法对开发活动进行管理,重视对质量的控制,采取相关的措施降低开发风险。 建模是软件开发的一个基本的活动,统一建模语言(UML)的出现使不同类型、
模糊逻辑与神经网络的融合技术是近几年来学术界与工程界非常关注的研究领域,神经元网络擅长于识别模式和按变化的环境进行自适应变化,而模糊推理系统则在对人类知识进行推理
学位