超帧特征空间下基于深度置信网络的语音转换

来源 :苏州大学 | 被引量 : 5次 | 上传用户:gongchp
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音转换的目的是在保持语义内容不变的前提下,将源说话人语音的个性特征改变,转换成具有目标说话人个性特征的语音,使得听起来像目标说话人的发音。语音转换技术的研究是语音信号处理领域一个比较重要的分支,它可以促进语音合成、语音编码等领域的研究,同时也有着广泛的应用前景。目前比较主流的语音转换方法是基于高斯混合模型(GMM)的转换方法,该方法虽然可以取得较好的语音转换效果,但是由于GMM方法假设各个语音参数帧之间是统计独立,忽略了语音相邻帧之间的相关性,从而使转换后的语音有一定的不连续,其次,由于传统的GMM模型在语音的参数化表达下对特征矢量进行加权平均,必然会引起参数的过平滑。本文提出了一种超帧特征空间下基于深度置信网络(DBN-Sf,Deep Belief Nets in Super-frame feature space)的语音转换方法,它是将深度置信网络构成的深度神经网络作为回归模型来映射源和目标说话人频谱参数之间的非线性关系。首先利用STRAIGHT提取说话人的基频和短时谱参数,从短时谱参数中求得对应的LPCC参数,利用动态时间规整将源和目标说话人的特征参数进行对齐,通过扩展源说话人当前的语音帧来构建超帧信息作为网络的输入,目标说话人对应的当前帧作为网络的输出,经训练得到短时谱转换函数。实验结果显示,使用该方法的转换语音在谱失真、目标倾向性和语音质量等方面均优于传统的高斯混合模型方法,转换语音的平均谱失真度相对于传统的GMM方法降低了9.5%。
其他文献
长久以来,教师为了上好一堂政治课绞尽脑汁,可学生还是感到枯燥乏味,这固然跟政治学科本身特点不无关系,但主要还是由于我们的教学观念落后和方法陈旧所造成的。"一言堂"的教学
全面实现由应试教育向素质教育转变,以迎接21世纪国际竞争的需要,已成为我国基础教育深化改革的紧迫任务。因此,我们教师必须跳出片面追求升学率这一误区,从提高学生整体素质
情感教育的目的是让学生在一个爱与宽容的环境中成长,帮助他们在成长过程中学会更健康乐观地面对生活中的一切。当一个学生感到自己不被理解或没有被很好地照顾时,作为父母、
勘查区位于中北秦岭加里东、燕山期铅锌、金、铜、银、锑、钼成矿带-下拉地-厂坝铅锌、金、锑成矿带-代家庄铅锌成矿区上.其中,勘查区内发现铅锌矿(化)体4条,金矿(化)体2条.
期刊
随着人们生活水平的日益提高,计算机硬件技术的不断发展和应用,人脸识别技术在多个应用和科研领域的重要性越来越大,如在:计算机视觉、模式识别、人工智能以及多媒体技术等领
期刊
语文教学中的高效策略,主要是教师启发引导学生开展主动学习,激发学生的学习动机,使学生积极主动地学习语文。在高中语文课堂教学中,教师要恰当运用教学方式,调动学生学习语
水下环境探测与目标特征提取是自主水下机器人(AUV)领域中的核心问题,也是机器人学中人工智能应用研究的重要方面。AUV要实现自主式作业,必须要具备对周围环境的自我感知和识
2012年1月18日,由南京市晓庄学院和南京市教研室联合举办的苏浙沪语文教学高层论坛在南京市人民中学举行。论坛以访谈形式进行。