论文部分内容阅读
随着多媒体和互联网技术的广泛应用和深入普及,多媒体数据的数量正在飞速增长,广播音频数据作为多媒体数据的重要组成部分,其信息量也在不断膨胀。如何有效地对音频信息进行组织和处理成为现代信息处理的一个研究热点。
音频数据仅仅是一种简单的没有任何语义符号的数据信息的集合,但是音频的种类是庞大的,如何从中提取出能够标识各自类别的主要特征信息,是音频处理前最为关键的一步。当音频信号在类型发生变化的时候,其声学特征会有明显的差异。音频分割就是利用这些差异性,将音频信号分割成为长短不一的音频片断;音频聚类技术可以将“杂乱无章”音频片断集合按照一定的类别区分开来并加以注释,以方便人们的使用。本文在研究前人工作成果的基础上,重点研究了音频分割和音频聚类技术。
首先,针对T2-BIC分割算法累积误差较大、召回率不高的缺点,设计了一种改进的T2-BIC二级分割算法。第一级采用改进的滑动窗口来检测搜索窗中的T2统计量峰值,利用BIC准则对峰值进行确认;第二级用分步解决的思想来处理由于BIC置信度过低而漏选的分割点,从而提升召回率。该算法不仅降低了计算量,而且召回率和综合性能都有所提升。
其次,鉴于传统的基于BIC的“自底而上”的层次聚类算法对音乐等信号聚类结果呈离散态的不足,设计了一种基于小波域的BIC多层次聚类算法,利用主成分分析消除信号特征向量中的冗余信息,采用Dmey波帧平均熵值来处理音乐等信号的聚类工作,对于类别集合中存在的剩余孤立点,利用GLR距离进行迭代归类操作。与其它音频聚类算法相比较,该算法提高了聚类的精度,使聚类类别结果更加细化。
最后,设计了包含特征提取、音频分割和音频聚类关键模块的音频检索分析系统,方便了科研工作者对音频的分析处理操作。