多模态媒体数据分析关键技术研究

来源 :天津大学 | 被引量 : 5次 | 上传用户:sendan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的飞速发展,媒体数据的形式已经从单一文本数据逐渐转变为表达形式更生动,内容更丰富的图片,视频,音频等多模态数据,而各种数字化信息采集设备及互联网的普及,使得多模态数据正呈现出海量增长的趋势,如何有效的存储,传输,使用及管理这些多模态媒体数据,是摆在我们面前的一个巨大的挑战和亟待解决的问题。近20年来,人们投入了大量的时间和资金对多媒体数据进行分析和理解,力求提高对数字化信息的利用率。例如,谷歌早期的文本检索系统,用户可以通过关键词寻找自己需要的文本信息。网络问答平台知乎(http://www.zhihu.com/),关注于对用户所提问题的分析与理解,使用尽量短的时间提供给用户尽量精确的答案。百度则开发出支持数字图片搜索的检索引擎。但这些解决方案的提出往往仅是针对单一模态的媒体数据进行处理,在多模态数据海量增加的今天,传统的数据处理,分析,检索的结果已经无法满足人们对媒体信息综合性的需求,从而催生了新一代面向多模态媒体数据分析技术。本文正是基于此方向,在多模态媒体数据分析体系中选择了三个针对性地问题展开探索性的研究。第一、图片语义提取是挖掘图片与文本两模态媒体数据之间映射关系的关键技术。随着移动互联的普及,图片在产生的同时往往伴随着相关地理信息,文本描述信息等伴生模态数据的产生。如何充分利用多模态数据之间的相互关系,来解决图片语义的生成是非常重要的研究方向。针对图片在地理信息上的一致性,本文提出了一种基于辅助域数据的跨域学习算法,它能够有效地解决图片与文本两模态数据之间的映射关系。算法首先根据图片的地理信息收集相关度较高的文本信息,把图片的语义信息限制在一定的范围内;之后利用已知的文本信息从互联网中搜索相应的图片数据作为辅助域数据;最后利用跨域学习算法得到图片数据与文本数据之间的映射关系,从而实现图片的语义提取。相应的实验也证明了方法的有效性和准确性。第二、视频语义提取是挖掘视频数据向文本模态数据之间映射关系的关键技术。由于视频在结构上是一系列图片在时间序列上的组合,因此在视频语义信息的理解和挖掘中,充分利用每帧图片中目标在时间序列上的相关性是非常重要的研究方向,考虑到视频中目标在短时间上的不变性,本文提出了一种基于图匹配的数据融合算法来解决图片内容与视频事件之间的映射关系。算法首先利用块检测模型在视频每帧中标记出目标的具体位置以及所在区域,检测的过程中,算法引入在线学习的思想,为每一个跟踪目标训练独一无二的检测模型,且随着目标的运动对检测模型进行更新和矫正以保证检测模型总是最适应跟踪目标当前的状态;之后,充分利用检测目标在空间和时间上的相关性构建图模型,使用图匹配算法解决目标数据融合问题,得到每一个目标在视频序列中的整体状态及底层特征变化情况。最后,根据目标的变化情况来提取视频的语义信息。第三、多模态数据的语义提取是在拥有多种模态媒体数据条件下实现信息综合应用的关键技术。在面对海量多模态媒体数据时,根据用户的具体需求,多模态媒体数据会形成一定的交集,构建针对某些特定目标(地点,人,物等)的语义提取算法将为用户有效地获取相关信息提供有力的支撑。考虑到多模态数据在语义上的相关性,本文提出了一种基于地点的多模态数据语义提取模型。首先从地点社交网络平台Foursquare中收集大量与地点相关的多模态数据(图片,文本,视频,地理坐标等)。然后利用多模态数据之间相互关系来构建多模态数据的图模型结构,最后利用图分割/分类算法来提取多模态数据语义信息。实验结果表明本方法可以有效的解决多模态数据的语义提取问题。全文在分析数据特性的基础上,提出了一系列的创新性算法来解决多模态媒体数据在实际应用中面临的诸多问题。论文主要的创新点可以包括以下几个方面:针对图片语义提取问题,首次把跨域学习算法应用到了图片语义提取中,实现了互联网图片的自动标注;针对目标检测的遮挡问题,在已有目标检测算法的基础上,提出了一种改进的块检测算法,算法利用物体的局部特征有效的解决了遮挡目标的检测;针对视频序列中的目标数据融合问题,成功的将数据融合过程转换为了经典的图匹配问题,并成功的将目标函数的最优化过程转换成了标准的瑞利熵最大化求解过程;针对多模态数据下数据间“语义鸿沟”的问题,提出了基于图模型的语义提取算法,并在基于地点的多模态数据中对模型性能进行了测试,实验最终证明了算法的有效性。
其他文献
为进一步探索留守儿童的教育与管理,6月上旬,黔西南州妇联对安龙县歪纳小学和贞丰县板昌小学的160名留守儿童进行了问卷调查,并深入到10户留守儿童家中对留守儿童的学习、生活及
报纸
基于统一强度理论,借助钢管混凝土轴压短柱极限承载力计算公式的推导,得出了极限状态时钢管和混凝土之间的侧压力,提出了界限套箍系数的概念,并给出界限套箍系数的计算公式,
叙述了水溶性丙烯酸聚合物的改性及其在涂料、胶粘剂、敏感性水凝胶、皮革涂饰剂等方面的应用新进展。
塔河油田三叠系是主要的产油气层之一,随着勘探的深入,低幅度构造圈闭油气藏是新的勘探研究方向。应用正演模拟技术和实际资料,建立低幅背斜油气藏砂体模型、地层尖灭模型、
中医五运六气学说,开了医学气象学先河。运用五运六气理论解析乙酉年运气规律,推测乙酉年气候变化情况及其与疾病发生的关系,以探寻运气学说的科学依据。乙酉年为太一天符年,
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
目的研究超声心动图在胎儿先心病产前诊断中的临床应用价值。方法自2007年6月至2008年5月对5312例孕妇进行产前系统彩色多谱勒超声筛查,对心脏病高危胎儿应用超声心动图对其
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
随着国内3G和4G的发展,智能手机在中青年人群中越来越普及,基于位置的服务也开始出现并流行。人们在享受基于位置的服务带来的方便和快捷的同时,却将自己的精确位置信息泄露
近年来,随着识别技术在自然资源分析、天气预报、导航、地图与地形配准、环境监测等领域的广泛应用,各种理论和方法也被大量应用于其中,非负矩阵分解方法作为一种代表性的矩