论文部分内容阅读
随着信息科学的高速发展,互联网、移动设备、云计算等技术已深入渗透到人类生产生活的各个领域,不仅带来了数据量的爆发式增长,还产生了大量有别于传统数据的非结构化数据。IDC报告显示,截止2013年底,全球数据总量已突破4.4ZB,而仅仅在2014年一年内全球新产生的数据规模即达到4.1ZB。研究表明,在所有数据中,以文本、音频、图像和视频为代表的非结构化数据的体量占数据总量的85%以上。数据量的骤然增长为决策者提供了更为丰富的数据基础,然而计算机无法直接理解和识别非结构化数据,这就为非结构化数据在管理决策活动中的应用带来新的挑战。如何高效的提取和利用非结构化数据中的有用信息,已成为大数据环境下管理决策所要解决的重要课题。 图像数据作为非结构化数据的一个重要类型,体量巨大,来源广泛,几乎覆盖了生产、生活、工程、科研等各个领域。随着大数据时代的到来,传统的图像挖掘范式在存储空间、计算资源、以及获取效率等方面,都面临巨大挑战。利用基于结构化特征的图像挖掘范式进行大规模图像数据挖掘,不仅能有效地解决大规模数据在存储和挖掘效率上面临的挑战,而且通过语义标签学习,能用于建立图像知识库,直接服务于管理决策。作为在这一范式中的基础环节,图像进行语义标签抽取相关研究并不充分,这一问题已成为在大规模图像数据在管理决策中应用的瓶颈所在。基于此,本文将沿图像语义标签学习展开深入研究。 对于每幅图像而言,潜在的语义标签数量巨大,受到标记成本的限制,对全部训练样本的所有潜在语义标签进行标注并不现实。近年来提出的比例标签学习问题(Learning from Label Proportions,LLP),作为典型的弱标签学习方式,模型训练时并不要求对每个样本进行标注,只要求以包为单位给出正负样本比例,从而大幅降低数据标记成本,非常适合于当前所面临的大规模图像语义标签学习问题。基于此,本文第一部分内容将深入研究LLP问题,开发出高效而准确的LLP模型。而与此同时,研究发现,在以行人标签学习、轮廓标签学习为代表的具体语义标签学习问题中,任务导向的特征和算法设计已相当成熟并取得巨大成功。在已有研究成果的基础上进一步提高效率和准确率,将能快速而直接的解决相关的语义标签学习问题。基于此,本文第二部分内容为针对具体语义标签学习问题的模型研究。 具体地,本文主要开展以下四方面的研究: 面向弱监督的大规模图像语义标签学习问题,提出Lap-InvCal比例标签学习模型。首先,介绍比例标签学习问题以及应用场景。随后提出,利用弱标签学习的方式,比例标签学习的问题设定对于图像语义标签学习有着很强的适用性,并指出已有的比例标签学习模型在处理大规模数据时存在效率较低的问题。接下来,将流形学习的思想引入比例标签学习问题,提出Lap-InvCal比例标签学习模型。大量实验表明,Lap-InvCal模型能够在提高预测精度的同时,加快学习速度。结合其弱监督学习的特点,Lap-InvCal模型可以广泛应用在大规模图像语义标签学习问题中。 提出基于多非平行面的结构化学习模型,通过更充分地利用同一类别内图像数据的内在结构信息,提高分类准确率。具体的,首先介绍结构化学习的相关进展,指出已有的结构化学习模型存在的不足和改进的思路。随后详细介绍所提出的多非平行性的结构化学习模型(MNSSVM),并给出了模型的求解方式。最后,通过大量实验,表明所提出的模型能够更充分利用数据的类内结构信息。特别地,由于图像数据自身的分布具有较为明显的类内结构特征,所提出的MNSSVM模型在图像分类问题上表现的提升更加明显。进一步,参考alter-∝SVM的迭代求解策略,设计出基于MNSSVM的比例标签学习算法MNSSVM-LLP,并根据图像挖掘的具体场景,通过简化聚类步骤并替换TWSVM模型为NPSVM模型,得到NPSVM-LLP模型,并通过大量实验对该模型和框架在处理LLP问题的优势进行验证和分析。 针对道路裂纹标签学习的具体问题,提出基于Crack Token的道路裂纹标签学习框架。对已有的研究进展进行介绍和分析性的基础上,总结已有方法的局限性。进一步的,借鉴最先进的边缘检测技术,提出基于中层结构特征CrackToken的有监督的路面图像裂纹标签学习框架和算法,并提出新的评估策略和评估数据集。最后通过大量实验,验证所提出算法的有效性。 针对行人标签学习的具体问题,引入了基于特权信息(Privileged Information)的双胞胎支持向量机进行行人标签学习。首先介绍行人标签学习在实际应用中的重要性,并对已有的特征和学习方法进行总结分析。为满足大数据分析的需要,本文引入特权信息并结合双胞胎支持向量机(TWSVM),在保证训练精度的前提条件下,获得更快的训练速度。在实验中,通过在多个数据集上的比较,验证所提出的检测框架能够获得最快的检测速度和令人满意的准确率。 整体研究结果表明,所提出的模型和方法能够较为有效地学习图像语义标签,得到的结果可以应用于图像语义知识库的构建,为管理决策提供更为丰富的数据支持,并促进图像语义标签学习领域的发展。