视音频信息融合算法研究

来源 :太原理工大学 | 被引量 : 0次 | 上传用户:zygqqx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着计算机信息化进程的发展,越来越多的视频设备以及技术应用到人们的学习以及日常生活中。视频会议、视频搜索引擎技术以及视频数据查询等等技术的应用,在包括电影、电视、会议记录、科学文献等众多领域产生了大量的非文本数据。对于个人而言,个人摄影设备的普及,以及互联网技术的改进,让普通人发布个人拍摄视频变得极其简单,也因此产生了大量的视频数据。如何处理如此众多的多媒体信息,如何组织数据并对其建立索引进行检索,对现有的视频处理技术是个严峻考验。早期的多媒体信息检索算法已经偏离了便宜操作的最初目的,未来检索算法的设计需要融合底层更多具有代表性的视觉、听觉、语义特征。视频信息的多模态性质为信息融合提供了基础。现有的分析融合技术大多针对单一模态,但是视频是具有多模态性质的特殊数据,并且在描述同一主题时,其包含的多种模态具有很大关联性。因此需要一种有效的方法对视频进行融合分析,用于更加准确地对视频进行分类和检索。本文在处理视频特征、融合视频特征过程中的主要工作如下:1、针对目前处理视频数据的模型定义局限于新闻、广告等特定领域,并且处理过程中使用的处理技术过于单一、陈旧,本文采用研究分析证明的一系列相对高效的视频处理技术定义了一个相对完备的视频检索预处理模型。该模型利用视频底层特征的多模态性质,提取出视频的时间结构,然后对内容进行特征提取,从原始视频中构造出视频数据的子集。本文基于此过程提取出视频的关键帧,并从视频的音频流中提取出音频特征。为简化运算,对提取出的底层特征统一进行降维处理,本文采用的降维算法为Shuicheng Yan等人最新研究的——边际fisher分析降维算法,该方法优于目前通常采用的PCA、LDA等降维算法。根据得到的各种特征向量,利用鲁棒性较好的支持向量机SVM分类器分类处理。2、在对基于多模态特征的分类结果进行融合时,提出了一种改进的MGR融合算法。依据特征向量经分类器处理后输出的样本序号矩阵,基于Melnik等设计的融合框架,为实现置信度和优先权的优化,设计了一个融合分数函数来改进MGR算法。改进后的算法比起MGR算法,降低了计算量,并且减少了参数数量,在识别率方面也有一定的改善。
其他文献
多网接入平台支持GSM/TD-SCDMA/TD-LTE等多网络信号覆盖,同时提供宽带接入到桌面RRU(Remote Radio Unit:射频拉远单元)模式接入,其硬件结构不同于传统的直放站,因此现有直放
人脸识别技术因具有重要的科学意义和实用价值,在近几年得到了研究者的高度重视,成为当前模式识别和人工智能领域的一个研究热点。它可以广泛地应用到安全部门、身份鉴别、电
网格是一种新型的分布式计算技术,网格充分利用互连网络中现有的软硬件资源,支持广域环境上的计算、数据、存储、信息和资源共享,消除信息孤岛,协同解决大型应用问题,以较低
无线传感器网络是一种由数量庞大的微型传感器节点构成的网络系统,这项技术逐渐成为各个国家科研机构的重点研究对象。该技术具有十分广阔的应用前景,有权威杂志和媒体就评价
测试用例是软件测试技术中的核心角色,测试用例的人工生成不能满足现代软件开发的需要,使得测试用例自动生成成为研究热点。在测试用例自动生成方法中,有基于规格说明和基于
互联网技术的飞速发展,使得网络上可交互的资源及信息量,在呈指数级的增长,信息量的膨胀却给人们带来了资源的匮乏感。原因便是信息量虽然在增长,但是,在庞大的信息量中,如何找到对
随着大规模存储技术、互联网及数字通信业务的迅速发展,电子出版、数字图书馆、互联网网站以及移动通信正在引发着不断膨胀的文本海啸。这种快速、无序的信息增长对于信息的使
并行测试主要目的就是提高测试系统运行效率,多个测试任务同时运行,降低设备闲置时间,系统资源得以有效利用。并行测试中的任务调度的优化是并行测试技术的核心问题,建模和分
目前,数据挖掘技术越来越为人们所重视。而分类是数据挖掘领域当中一个非常重要的问题,聚类算法和支持向量机在处理分类问题上都表现地非常的出色,成了当今数据分类的两种十分有
在药物研发过程中,需要通过从海量化合物数据库中筛选出质量较高的药物先导物来实现药物设计成功效率的增加,因此,类药性的概念应运而生,药化学家们通过这一概念对分子结构特征和性质进行研究,并总结出了类药性预测指标。另外,化合物的构造活性关系研究也是药物设计的重要方式之一,在发现和研究新的药物的过程中,研究化合物活性与研究化合物类药性同样重要。在大多传统的化合物活性研究中,通过动物活体测验和检测方式对化合