自动图像标注及标注改善算法的研究

被引量 : 0次 | 上传用户:times0927
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数码相机等有成像功能的数码产品的普及使图像制作方式越来越大众化,制作成本越来越低廉。计算机网络的普及、微博的流行以及Picasa和Flickr等图像共享社区的成熟,使图像数据的传播越来越容易。图像数据的爆炸式增长迫切要求具备与数据增长相适应的图像数据的管理和理解能力。自动图像标注技术是图像管理和理解能力的关键。本文主要围绕图像标注如何缩减语义鸿沟、提升标注效果和提高标注效率开展研究。主要工作及创新如下:(1)提出了改进的CMRM算法,给出了相关模型的通用形式,并从概率论、信息检索以及数据多模态等角度对标注模型给予解释。在分析对比基础之上,指出了相关模型的关键技术以及今后的研究重点。实验结果表明,改进方法的标注效果优于原始CMRM。(2)提出了基于正反例标志性向量的标注方法。为提高标注效果,传统的基于分类的图像标注方法所采用的模型越来越抽象、算法越来越复杂,但效率越来越低。本文提出利用转换媒体的思想,通过为每个文本关键词或语义概念构造视觉特征空间的标志性向量方法,把图像标注问题转换为确定最相似的标志性向量问题。标志性向量由其对应的正例图像与反例图像的特征向量均值差确定。与传统的图像标注方法相比,该方法模型简单,训练和测试的时间开销极低,以词为单位的标注性能高。本文提出的基于正反例的标志性向量方法可以作为一个独立的标注方法使用,更重要的是可以作为今后不断提出的更复杂模型或数据表示方法的对比方法,以便论证采用这些新方法的必要性。(3)提出了基于局部学习的LL_PLSA图像标注方法,该方法模型训练过程中的对象选择、权重分配以及参数设置均通过待标注图像所在的局部特征空间学习得到。现有的PLSA图像标注尽管采用了具有较高语义级别的主题方法描述图像,但图像标注效果不尽人意,落后于很多采用视觉特征描述图像的标注方法。PLSA在学习过程中,由于需要EM算法多次迭代,因此其模型训练代价较大。随着训练图像数据集规模的增长,急剧增加的时空开销使其无法应用于较大规模数据集中。因此,很多学者得出结论,PLSA方法无法应用于中、大规模数据集。本文提出的LL_PLSA方法把参与模型训练的图像由整个训练集图像缩减至特征空间中与待标注图像相关的固定个数的图像(10-20幅图像),相关图像的确定和相似度计算采用了多模信息结合特征空间上下文的方法。由于相关图像个数是常量,参与模型训练的图像与数据集规模无关,因此LL_PLSA是一个可伸缩的模型,可以用于处理大规模数据集。为了提高模型质量、缩减语义鸿沟,我们提出了加权PLSA模型并用于LL_PLSA中。为了增强LL_PLSA的自适应性,每次模型训练的参数(如主题数目等)由参与模型训练图像所在的局部空间信息动态确定。就F1-measure指标而言,LL_PLSA在Corel5k和IAPR TC-12两个数据集的实验中分别比PLSA_WORDS提高了63%和75%。LL_PLSA不仅优于现有的PLSA类模型,也优于当前其他模型的主流标注方法。Corel5k和IAPR TC-12的实验结果表明,LL_PLSA是一个可伸缩的模型,其时间开销几乎不受训练数据集规模的影响。(4)提出了两种图像标注改善方法:基于互信息的标注改善(MIAR)和基于加权互信息的标注改善(WMIAR)。MIAR采用互信息作为相关性度量方法,在标注改善过程中以初始标注词的置信度为次序逐个计算候选词汇与已确认词汇的相关性。MIAR通过剔除相关性小于指定阈值的噪音词汇完成图像标注改善。WMIAR使用加权的互信息度量词汇相关性,在计算相关性时,不再机械地统计词汇的共现频次,而是结合它们所在图像与待标注图像的相似度,并以此相似度作为共现概率的权重。由于综合了全局范围内词词的一般规律和待标注图像的具体视觉信息,因此比较准确地刻画了待标注图像与候选标注词之间的关系。实验结果表明,本文提出的MIAR和WMIAR在初始标注基础之上通过噪音词剔除或候选词重新排序能够进一步改善图像标注效果。
其他文献
我国冷饮物流发展前景可观,但是目前我国冷饮行业物流管理体系的建设还不够完善,如物流成本居高不下等等原因,使得社会资源不能有效的发挥作用,最终影响着我国冷饮产品的品质。在
传统的输配电设备制造企业出口一般是通过国内或国外的电气工程承包商直接出口成套设备。在世界经济全球一体化的今天,尤其是在业内少数国际巨头的引领下,产品的整体设计越来
伴随着热红外技术的迅猛发展,红外成像技术的应用领域越来越广泛。红外成像特有的成像机理使得红外图像与普通的电视图像和可见光图像相比普遍具有图像效果模糊、对比度低等特
本文的研究对象为张爱玲的《金锁记》。《金锁记》诞生于张爱玲创作的鼎盛时期,无论是题材还是写作风格都堪称她的经典之作。张爱玲迁居美国后,更是数易其稿,并将此作品译成
激光超声Lamb波检测技术结合了激光超声检测以及Lamb波检测的优点。具有,非接触、带宽、高效、快捷、使用面广等优点。但是由于激光与材料相互作用的复杂性以及Lamb波自身的一
鹿茸与其他哺乳动物的角有着明显的区别,鹿茸会周期性地进行脱落和再生。成年雄鹿每年都经历着脱落、再生、矿化、脱落的循环过程。因此,鹿茸的生长机制一直是生物学研究的热点
随着城市轨道交通系统的网络化发展,现有车站已不能满足乘客的出行需求,尤其是在换乘站的早晚高峰时期。为了应对当前换乘站客流猛增的形势,降低因出行客流量过大造成的安全
CCD摄像机在消费领域、图像传感和非接触测量领域中有着广泛的应用,由此也推动了相关技术的发展。CCD器件具有灵敏度高、光谱响应宽、动态范围大、空间自扫描,抗震动、抗磁场
目前,对于不同结构形式的滑动轴承,通常采用差分法或者有限元法来研究轴承的静、动态特性,在建立数学模型时要进行很多简化,往往忽略惯性项、油膜曲率等因素的影响,并且差分
通过对我区小麦生产概况、主要制约因素及生产潜势分析研究,提出发展小麦生产的基本思路是,指出了我区冬小麦生产可持续发展的相应对策和战略措施,期望能对小麦生产可持续发展提