论文部分内容阅读
语音转换技术是一种将源说话人的声音变为目标说话人声音的技术。作为一门交叉性较强的学科,语音转换技术目前已在文语转换、医疗辅助和通信保密等方面已经得到了重要应用,并且在其他领域展现出了广泛的应用前景。语音转换的研究不仅能加深信号处理领域的理论发展,而能够加深其他与之交叉领域的研究进展。因此,语音转换技术的研究在各个方面都表现出了重要的意义。目前进行语音转换时使用最多的模型是高斯混合模型(Gaussian Mixture Model,GMM)和人工神经网络模型(Artificial Neural Networks,ANN)。考虑到GMM模型存在过平滑和过拟合等问题,论文选用ANN模型进行语音转换。ANN中的径向基函数神经网络(Radial Basis Function,RBF)模型结构简单,可以逼近任意非线性函数。而广义回归神经网络(Generalized Regression Neuron Network,GRNN)作为RBF的一种特例,其模型具有很强的非线性映射能力、简单的网络结构和较高的鲁棒性。针对GRNN模型有且只有一个模型参数的特点,本文利用粒子群优化算法(Particle swarm optimization,PSO)对其进行参数优化,得到了PSO-GRNN模型。该模型不但可以减少人为参数选择对转换模型的影响,还可以提高网络的学习能力。因此,论文中使用的ANN模型有RBF模型、GRNN模型和PSO-GRNN模型。实验结果表明,基于PSO-GRNN模型的转换语音比基于RBF模型和GRNN模型的转换语音更接近目标语音。线性预测编码(Linear Prediction Coding,LPC)模型在语音信号分解时对鼻音和爆破音描述的准确率不高,而STRAIGHT模型可以将语音信号分解得到彼此独立的频谱参数和基频参数,并对这些参数进行语音重构。故本文使用STRAIGHT模型代替LPC模型对语音信号分解和合成,并进行了相应的语音转换实验。相似度测评结果表明,基于STRAIGHT和PSO-GRNN模型的转换语音比基于LPC和PSO-GRNN模型的转换语音更接近目标语音。