论文部分内容阅读
随着多媒体和互联网技术的广泛应用和深入普及,多媒体数据的数量正在飞速增长,音频数据作为多媒体数据的重要组成部分,其信息量也在不断膨胀。如何有效地对音频信息进行组织和处理成为现代信息处理的一个研究热点。
原始音频数据本身仅仅是一种非语义符号表示和非结构化的二进制流,缺乏内容语义的描述和结构化组织,给音频信息的深入处理和分析工作带来了很大的困难。音频的分割和聚类,作为提取音频内容语义和结构的重要手段之一,其研究日益引起人们的重视。本文在总结前人研究成果的基础上,着重对音频特征分析与提取、音频分割算法以及音频聚类算法等三方面进行了研究。主要工作如下:
首先,利用多分辨分析的优势,给出了基于小波域的音频特征。该方法以小波变换为理论基础,重点分析了基于帧的音频特征提取和基于例子的音频特征提取,较好的解决了基于时域和基于频域的特征无法描述信号时频局部性质的不足。
其次,针对传统单一音频分割算法中存在的冗余分割点过多等问题,设计了基于GLR(Generalized Likelihood Ratio)距离的改进BIC(BayesianInformation Criterion)音频分割算法。该方法提出了候选跳变点潜在区域的判断准则,并据此给出潜在区域中跳变点的检测方法,对检测到的跳变点进行校验。实验结果表明,与传统的音频分割算法相比,该算法的综合性能大大提高。
最后,提出一种基于Mean Shift的音频聚类算法,该算法可以避免目前大多数聚类算法依赖聚类数目这一先验知识的缺陷。首先将构造的特征集向量进行PCA(Principal Component Analysis)变换后作为聚类的输入,然后利用Mean Shift算法不需要任何先验条件的特性对音频信号进行初步聚类,结合快速近邻法对Mean Shift的聚类结果进行一次修正,并合并仅含有单个元素类别的类进行二次修正。实验结果表明,该算法的聚类精度有一定的提高。