基于多模态特征的新闻视频语义分析

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:lw8312188
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机网络和多媒体技术的飞速发展,数字视频在人们的生活中成为不可或缺的信息载体。如何帮助人们从海量视频数据中找到自己感兴趣的内容?国家有关部门如何对危害社会稳定、团结和影响青少年健康成长的不良视频内容进行有效监管?基于语义的多媒体信息检索,视频语义内容安全分析是处理上述问题亟需攻克的技术难题。视频数据包含着丰富的语义内容,作为视频的一种高级语义线索,视频中的文本(包括主题字幕信息和语音脚本)所包含的信息对于视频内容的理解具有很高的价值。如何从视频中检测、抽取主题字幕,如何得到视频语音脚本,如何对同一视频故事的字幕信息和音频脚本进行有效融合等是视频语义信息提取的关键问题。本文提出了一种基于多模态特征融合的新闻视频语义信息提取框架。首先,对主题字幕进行检测、定位、识别;其次,对视频中的音频信息进行分类和语音识别;最后,为解决语音识别结果错误率较高的问题,由主题字幕信息通过搜索引擎得到与视频故事相关的网页,利用网页文本对语音识别的结果纠错。通过自然语言层次上视频字幕信息和音频信息的跨模态融合提高了视频语义提取的准确率。通过对中等规模的实验数据集(包括视频数据和网页库)的测试,结果表明本文提出的分析研究方法的有效性,经纠错后的语音识别准确率达到65%左右。
其他文献
签密技术将数字签名与公钥加密合二为一,实现了既保密又认证的传输消息。而多接收者签密技术将多接收者加密与签密相结合,能够仅通过一次签密操作对多个接收者发送同一消息,从而
随着移动网络基础设施和移动终端设备的快速发展,移动支付正呈现飞速发展的趋势,许多国家都已经开始大力推动移动支付的发展和部署。由于支付环境的复杂和支付终端设备的性能
随着互联网和视频通信技术的快速发展,基于IP网络的视频会议也获得了广泛应用。但是,在IP网络上由于每个与会者的网络条件存在差异,因此在视频会议中需要视频服务器能够自适应地
下一代移动通信系统的主要特征是多种无线接入技术并存,互补,无缝集成,没有一种网络能同时满足高带宽、低时延、广覆盖等要求,无线网络互通与融合成为必然趋势。垂直切换是异
隐写技术为保证军事信息的安全可靠通信提供了新途径,是当前信息安全领域的一项重要研究课题。随着多媒体技术的迅速发展,低速率语音已成为一种新兴的隐写载体。低速率语音编码
多变量数字签名系统的安全性是基于多变量公钥密码体制中,求解多变量非线性多项式方程组的困难问题,区别于传统公钥密码体制基于的数论问题,因此能抵抗量子计算机的攻击。此外,该