基于视觉不变量的视频语义概念检测技术研究

来源 :中国科学院计算技术研究所 | 被引量 : 0次 | 上传用户:zooton2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,网络视频数据量呈爆炸式增长,为更好地管理和利用数字视频资源,人们迫切希望计算机能自动完成对视频的标记及描述工作以代替费时费力的人工标注。然而,视频的高层语义,也就是人们对视频数据的理解,与其表现形式,即计算机所提取的二进制底层特征之间存在着难以跨越的语义鸿沟。为有效克服语义鸿沟,视频语义概念检测技术应运而生,它是一项研究如何建立视频底层特征与其高层语义之间映射的技术,当前已成为国际研究的热点,它不仅具有重要的学术研究意义,而且有着广阔的应用前景。目前,由于缺乏鲁棒的底层特征和有效的算法等问题,这项技术的检测准确率仍然很低。为提高检测准确率,本文将研究基于视觉不变量的视频语义概念检测技术,其中对视频语义概念检测中的底层特征及融合算法进行了较为深入的研究,取得如下研究成果:   1.基于嵌入EMD的Bag-of-Feature特征   构建有效的底层特征表示是视频语义概念检测的基础。本文在视觉不变量特征的基础上提出了一种基于嵌入EMD的Bag-of-Feature特征,它在Bag-of-Feature的思想上引入用于计算特征点集间距离的嵌入EMD理论,以空间金字塔的形式对视频帧进行表示。该特征不仅克服了以往方法完全丢弃特征点空间信息的问题,同时具有形式简单、计算复杂度低等特点,可对视频帧给出更全面、有效的描述。   2.基于平均准确度的Adaboost融合算法   针对视频语义概念检测技术中缺乏鲁棒高效的融合算法的问题,本文在朴素Adaboost的基础上对算法进行改进,提出了基于平均准确度的Adaboost融合算法。改进后的算法借鉴了TRECVID的评价标准——平均准确度的思想,利用样本的排序更新样本权重,并充分利用了分类器的输出信息,使得算法更加有效。   3.TRECVID视频语义概念检测系统和Go2View中的语义概念检测模块   在上述研究成果的基础上实现了TRECVID视频语义概念检测系统和视频搜索引擎Go2View中的语义概念检测模块。
其他文献
信息技术发展,使得高校各部门之间数据交换日趋频繁,基于不同时期、采用不同技术构建的部门应用系统数据需要共享与交换,以实现学校或企业整体管理与决策的科学化、自动化。为了
近年来,随着信息技术及应用领域的不断发展,人脸检测与跟踪技术成为计算机应用领域的一个研究热点,不断有新的研究成果出现。本文从人脸检测和人脸跟踪两个方面展开研究,并应
基于 WEB 的应用服务系统,在 Internet 技术推广以来,得到迅速发展。近年来,各高校也纷纷开展网络信息化建设,校园网上运行的办公自动化、综合教务管理、财务管理、人力资源、网络教学、综合信息服务等系统在为学校提供信息服务的同时,也提高了管理人员的素质,并正在改变着人们的管理观念。然而,在各种管理服务系统中,却甚少有专门针对学生管理工作的网络服务系统。国内各高校普遍对此投入不多,相关的文献资
随着信息化的不断发展,企业对应用集成和应用互操作性的要求越来越高,但是由于不同应用系统间的异构性,使得企业间及部门间的数据交换、集成面临着很大的困难,极易导致信息孤岛的
步态识别是生物特征识别技术中的一个新兴领域。它旨在根据人们的走路姿势实现对个人身份的识别或生理、病理及心理特征的检测,成为近年来生物医学信息检测领域备受关注的前
随着互联网数据的爆发式增长,人们对信息获取、知识习得的需求也越来越高,这种需求一方面体现在对高质量和相关度的信息知识的要求,另一方面体现在对个性化、智能化的高效检索系
在手机彩信业务普及的今天,每天都会有大量的彩信图像进行检索和传送,这些数字图像中包含了大量有用的信息。然而,由于这些图像是无序地分布在世界各地,图像中包含的信息无法
近些年,我国数字多媒体产业发展迅速,市场上不断出现新的视听产品:MP4、数码照相机、数字广播电视、下一代高清晰度DVD……按照广电总局的规划,到2015年,我国将停止模拟电视广播,全
网格计算是21世纪新兴的网络计算方式,生物信息学的主要任务是以计算机为工具对生物信息进行存储、检索和分析【InfoBio】,北京大学生物信息中心开发了称作WebLab的生物信息
在过去的几十年里,软件发展经历了几个重要转折,从面向过程,面向对象,面向组件,面向集成。近年来,随着企业需求的不断变化,企业级应用软件的快速发展,开发的规模以及开发的复杂度也随