论文部分内容阅读
在现实生活中,音频常常会因为环境噪声、网络拥塞和设备限幅等影响,而产生诸如脉冲干扰、片段丢失和削顶失真等情况的受损,降低音频的可听度和可懂度。如果音频应用于语音识别、说话人辨识等情况,还会导致相应识别率下降,所以需要对受损音频进行数字化修复,还原出受损部分,改善音频质量。针对目前音频修复的研究现状,本文采用基于稀疏表示的音频修复算法。基于稀疏表示的音频修复是指在音频为稀疏信号的前提下,利用受损音频中可靠部分的数据,在过完备字典中进行稀疏表示,然后用稀疏重建的方法来恢复出受损部分。因为音频中相邻帧之间信息存在着冗余,丢失的部分信息可以利用周围冗余信息来补全。算法分为过完备字典构造和稀疏表示两个环节。本文在前人工作的基础上,针对这两个环节进行了研究改进:1.过完备字典训练算法对于过完备字典构造,在之前的文献中采用固定字典,但是音频种类繁多,不同的音频具有不同的基频和共振峰等特征信息,因此固定字典不能很好的反映出特定音频的结构化特征,针对这一问题,本文采用训练的方法得到自适应字典,在选择字典训练算法时,为了兼顾算法的高效性和字典中原子的相关性,本文选用解耦合的K-SVD字典训练算法,即INK-SVD算法,来对音频进行训练。2.稀疏表示算法对于稀疏表示,在之前的文献中多使用OMP算法,这种算法不会选择重复的原子,稀疏表示误差小,但是,该算法并没有充分利用音频帧之间的相关性信息,即帧之间是存在很大程度上冗余的,本文通过实验的方法,证明相关性的存在,为了利用相关性信息,本文对传统的OMP算法进行改进,在选取原子的时候,考虑到该原子是否在前一帧用过,如果该原子被前一帧选中,则在下一帧中适当增加一个权重,权重的大小根据帧之间相关性动态调整,从而提高原子选取的精确性,降低计算误差的影响。本文实验部分是在Audio Inpainting Toolbox提供的音频数据集上,使用改进型基于OMP的音频修复算法对片段缺失、脉冲干扰、削顶失真等三类不同的受损情况,与传统的固定Gabor字典相比,改进算法在信噪比SNR有4-6dB提升,在主观评价指标PESQ上有0.2-0.3提升。