论文部分内容阅读
数字音频指纹是指可以代表一段声音重要声学特征的基于内容的紧致数字签名,其最主要的应用包括进行未知音乐检索的数字音频识别技术和作为鲁棒数字签名进行音频完整性/真实性校验的数字音频认证技术。本文介绍了音频指纹技术的基本概念、性质和算法的基本框架,针对指纹在音频识别和音频认证中的应用,对现有的音频指纹算法进行了评价和比较。提出了采用小波包最优基分解作为数学工具,在此基础上计算各种基于最佳子树中小波包系数的统计量作为鲁棒音频指纹,并分别用于未知音乐检索和基于质量/内容音频软认证的三种算法。算法1采用音频信号每帧最优小波包系数能量与平均能量的比值作为音频指纹比特序列进行未知音乐识别。实验结果表明此类指纹在不同音乐之间具有明显的可区分性,并且在受到有损压缩、添加噪声、重采样等一般音频信号处理时与原始指纹仍具有很高的相似性,即对音频信号处理具有强鲁棒性。这说明即使在遭受较强失真的情况下,此种特征也完全可以用于未知音频片段的数据库检索。算法2分别采用上述能量比值特征和最优分解后每帧小波包系数标准差与平均标准差的比值作为音频指纹比特序列进行基于内容的音频软认证。实验结果表明这两类特征对常见的保持内容信号处理如MP3压缩、回声、均衡化、重采样、调幅、添加噪声等均具有强鲁棒性从而通过认证,而对局部替换、修改、删除、复制音频等恶意操作则完全脆弱并触发检测器使认证失败,同时还能较准确地定位被恶意篡改的位置。算法3采用每帧最优小波包系数代数和的符号即±1序列作为音频指纹用于基于质量的音频软认证。采用客观音频质量评价工具PEAQ(PerceptualEvaluation of Audio Quality)区分某一音频处理是否引起质量下降到临界点。实验发现除各种比特率下的MP3压缩均能保持很高PEAQ值,被视为保持质量操作而通过认证外,均衡化、变调、混响、加回声、时间尺度伸缩等其它引起音频特殊效果的音频处理均引起PEAQ值较大下降,在此种意义下被视为不可接受操作而使认证失败。