弱监督目标定位研究

来源 :南京理工大学 | 被引量 : 0次 | 上传用户:lzhdq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统的目标定位方法一般都需要人工标记的训练样本来学习目标模型,其中在正样本数据中都要以某种形式标注出目标的所在位置。然而人工标注是非常耗时且乏味的,并且可能产生标注偏差。另一方面,随着电子设备的普及和高速网络的兴起,我们可以轻而易举地获得大量的弱标记的图像和视频数据。所有这些都促进了弱监督目标定位方法的出现。在弱监督目标定位任务中,训练数据是弱标记的。也就是标签只说明了该图像或视频是否含有兴趣目标,而对于目标的位置没有提供任何信息。我们的目标就是要从这些弱标记的数据中学习到目标检测器。大多数现存的弱监督目标定位都局限于边界框形式,边界框对于非框形物体定位不够精确,更严重的是边界框中的背景元素有时候会误导分类器导致错失整个目标。在本论文中,我们基于特征点得分和过分割区域组合两种思路,提出了几种能产生任意形状的弱监督目标定位方法。  基于特征点得分的思路早已被广泛应用于监督式的目标定位中,其实快速空间搜索的目标定位方法都可以划归到一个特征点得分投票的框架下。这些方法大多数都采用了线性SVM和直方图特征表示的方式,使得一个区域的SVM得分能够分解成其所含特征点权重之和的形式,以确保满足使用一些快速空间搜索策略的前提条件。这里基于SVM的权重就可以看作是特征点的得分。然而这种最优化图像子窗口分类性能得到的SVM权重并不能可靠地反映特征点的类别归属,导致目标定位的结果有时候很差。为了解决这个问题,本文提出了一种基于最大后验估计的目标定位方法,把目标定位的问题转化为特征点得分投票问题。其中的特征点得分是通过最小二乘回归估计密度比得来,能够较为可靠地反映特征点的类别归属,从而解决了基于SVM分类的定位方法的缺陷。  想要实现基于特征点的弱监督目标定位,一种简单的思路是把现有监督式的方法分解为分类器训练和目标搜索两个步骤进行反复迭代。即先用整幅目标图像(往往含有很多背景)作为目标位置训练分类器,然后用得到的分类器在这些图像里面搜索目标,再用搜索到含有较少背景的图像训练更为准确的分类器,期望每一步能把目标定位得更精确。但在实际应用中,因为弱标记的正样本图像里面含有大量的背景元素,并且在迭代训练过程中,这些背景元素对分类器的影响不断累积,导致最后的定位结果趋向于覆盖整幅图像。尽管如此,我们观察到正特征点权重最密集的区域依然集中在目标上。因此我们利用最大熵随机游走的稳态分布来确定正权重最密集的区域,从而提出一种基于特征点得分的弱监督目标定位方法。  另一种实现弱监督目标定位的思路是,把图像或视频看成袋子,把其所含的候选区域看成示例,这样很容易让人联想到多示例学习。实际上多示例学习也确实已经应用到目标定位领域,然而大多数已有的多示例学习只能找出袋子里面单个最有可能是正样本的示例,并且当这些方法应用到目标定位当中时,定位形式局限于边界框。我们在本论文提出了两种基于过分割区域的弱监督目标定位方法,一种是基于词袋学习的弱标记数据中示例标注的方法,另一种是基于分片支持向量机的方法,从而解决了这些问题。  在基于词袋学习的示例标注方法中,我们提出用词袋模型来刻画一个概率分布,并且通过标准的最大似然估计方法得到词袋模型的参数。给定一组两类的袋子数据,我们的目标是要为正袋子里面的每一个示例确定标签。如果知道正类示例和负类示例的分布,那么这个目标将很容易达成。为此,我们用词袋模型来分别建模正类和负类的分布,然后将词袋学习和示例标注融合到一个优化公式当中。与大多数现存的多示例学习方法通过检测一个最正的示例来最优化袋子级别分类不同的是,我们的方案旨在标注正袋子里面每一个示例从而检测到所有的正示例。  在基于分片支持向量机的方法中,基本思想(以图像为例)是首先对图像进行无监督的过分割得到很多分片,给每一个分片加上一个隐变量作为权重,然后联合地优化这些隐变量和SVM的参数,以达到选择和分类的双重目的。同样是假设假设一个负袋子里全是负示例,一个正袋子里至少含有一个正示例,我们的方法跟多示例学习的不同在于:多示例学习中一个测试袋子的标签由其所含的示例得分最大的那个决定,而在我们的分片支持向量机中,袋子的标签是由每一个示例得分的线性组合决定的。对于视觉学习来说,这样的假设更为合理,因为无监督的分割技术很难把一个目标完整地分割出来,从而不能说哪个区域单独决定了整幅图像的类别归属,真正的目标应该是若干个区域的组合。  此外,本文还提出了一种基于询问合成的主动学习算法,该算法综合了样本合成和基于池采样主动学习方法的优点。在耗时比基于池采样的主动学习方法少得多的前提下,能达到与之差不多的性能。另外,我们还对主动学习方法在弱监督目标定位中的应用进行了探索,提出了两种应用思路,初步的简单实验证明了其可行性。
其他文献
该文主要研究关系数据库系统在Web环境下的应用,Web技术的迅速发展和广泛应用,给传统的关系数据库应用技术带来了新的发展契机,同时也对它提出了新的挑战.如何将传统的关系数
两相流参数测量在工业生产和科学研究中有重要意义,层析成象是最好的流型识别及横截面分布信息测量的方法之一.从国内外研究资料反映的研究现状来看,电容层析成象系统是研究
随着人工神经网络与认知科学的迅速发展,深层神经网络和视觉数据的研究也日益加深。深度神经网络起初的兴起也是源于大脑的视觉加工模式;我们的大脑通过多层神经元将信息逐层
该文主要阐述了一套基于现场总线技术的复卷机控制系统.该文分析了在复卷机两个卷取传动点通过负载发生的耦合现象,通过实验和理论分析,提出了工程中简便易行的解耦方法,并进
该论文在总结国外交通影响分析的理论方法基础上,运用系统工程的建模思想,对国内外城市土地开发的交通影响分析进行了较深入的研究.具体研究内容如上:1.全面详细地介绍了美国
高强度气体放电灯是一种新型节能电光源,具有光效高、寿命长等显著优点.但是,与之配套的电感镇流器已不能满足绿色照明的用电要求.该文以高压钠灯为对象,提出了一种电子镇流
该论文采用80C196KC单片机开发电梯控制系统的控制硬件,主要进行了单片机外围电路、控制接口电路、运行状态显示电路以及调节器的开发,并采用光电隔离等措施,以提高控制硬件
该文以组合导航系统为背景,系统研究了多传感器数据融合技术及其应用问题.
该文针对现有的常压装置汽油干点观测技术存在明显的缺陷,提出了一种新的汽油干点观测技术-机理模型与人工神经网络相结合的汽油干点观测技术.首先,这一技术将Luenberger观测
该论文主要进行智能信息处理技术在系统故障诊断领域中的应用研究.首先,回顾了论文中涉及的故障诊断和智能信息处理技术的发展历史、研究现状和趋势,并分析了总结了现有主要