论文部分内容阅读
语音音乐分离就是将音频中混合的语音信号和音乐信号分离开来,分离后的信号可用于语音识别、乐器识别、音乐旋律提取和音乐流派分类等音频分析过程,盲源分离算法是解决从混合信号中提取各个原始信号的问题的有效方法,为语音和音乐信号的分离提供了有效途径。本文在线性瞬时混合的情况下研究了负熵最大化方法、基于时频比的盲源分离方法和信息最大化方法,并用于语音音乐信号分离,主要工作如下:第一,研究了基于负熵最大化改进的算法,用于适定语音音乐分离。针对负熵最大化方法中分离性能依赖于初始矩阵选取的问题,采用牛顿下山法代替牛顿迭代法做为优化算法寻找最优矩阵,通过改变下山因子,使目标函数呈下降趋势,降低算法对初始值的依赖性。仿真实验结果表明,算法在不同初始值下均能较好的分离出源信号,改进后算法平均迭代时间比改进前减少26.44%,迭代次数减少69.15%,并且迭代时间和迭代次数均在较小范围内波动,较好地解决了初始值敏感的问题。第二,研究了基于时频比改进的算法,用于适定语音音乐分离。针对基于时频比的盲源分离将信号变换到时频域后计算量大且对算法有效的时频点较少的问题,用重复结构周期内的时频点代替整个时频域进行单源点的检测。重复结构内的时频点在每个周期内都有相似的值,通过对一个周期内时频点的检测,得到单源点的时频比,对这些比值构成的矩阵求逆就可得到对源信号的估计。仿真实验结果表明,在达到几乎相同相似系数的情况下,改进后算法检测的时频窗减少了51.90%,运行时间减少了56.72%,降低了运算量。第三,研究了结合经验模态分解和互信息最大化方法的盲分离算法,用于欠定语音音乐信号分离。针对信息最大化方法只能应用于观测数不少于源信号数的情况,采用经验模态分解和互信息最大化相结合的算法。根据重构信号与原混合信号的相似度选取固有模态函数构造新的信号,并与原混合信号组成新的观测信号,将欠定盲源分离转化为适定盲源分离,再以输出与输入信号之间的互信息为目标函数,自然梯度法为优化算法分离信号。仿真实验结果表明,经验模态分解和互信息最大化相结合的方法能有效的解决欠定盲源分离问题。