论文部分内容阅读
随着多媒体的蓬勃发展,音频识别技术和视频流图像处理技术也越来越成熟。本人所在实习实验室在语音识别、语种识别、声响识别、话者识别、情感识别等领域取得了一系列研究成果,多媒体内容分析管理及可视化展现系统的主要功能是集成这些研究成果,形成一个整体的、系统化的多媒体平台,并行分析出一段语音中的语音内容、语种内容、声响内容、话者内容、情感内容,利用信息可视化技术来进行直观地展示。本论文详细介绍了多媒体内容分析管理及可视化展现系统的设计与开发的主要技术和方法。多媒体内容分析子系统主要包括了多媒体流分解,多媒体音频流提取、切分,多媒体音频识别模块集成,视频流图像抓取,字幕检测定位,图像分割,单字提取,视频流的渲染播放等关键功能;多媒体内容可视化主要包括了对语音内容、语种内容、声响内容、话者内容、情感内容、上述内容检索结果的可视化以及多媒体播放器等关键功能;多媒体内容管理主要完成了音频识别相关的数据和字幕识别相关数据管理以及定义了多媒体音频识别模块输出内容的存储格式。系统多媒体流的处理采用的框架是Direct Show框架,Direct Show是微软公司提供的一套在Windows平台上的多媒体处理开发包,它为多媒体流的处理提供了许多方便快捷的方法,而且开发人员可以利用Direct Show技术根据需要定制特定组件。本系统采用基于实例的测试方法验证了功能性需求,对关键功能的测试环节,做了大量的测试工作,保证系统功能的准确性与稳定性。测试结果表明,系统实现了需求所提出的功能,具有较好的稳定性和实用性。