基于STRAIGHT模型的声音转换方法

来源 :中国科学院自动化研究所 | 被引量 : 0次 | 上传用户:funwoods
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在信息技术与计算机科学迅速发展的今天,人们追求个性化,娱乐化,简单快捷的技术应用。声音转换或声音个性化技术就是这样一种能给人们带来全新体验的技术,它是当前语音技术研究的热点。   声音转换是改变源说话人的声音,使其听起来具有目标说话人特性的技术。它在语音即时聊天,电影、广播、电视中剪辑和配音,语音合成的语料库收集,语音合成后端语音的个性化处理,在说话人辨认,情报部门等都有很多应用。声音转换包括两个阶段:在训练阶段,提取源与目标说话人少量训练语音的说话人特征进行训练得到映射规则;在转换阶段,对源说话人测试语音特征按照映射规则预测目标语音特征,最后由预测语音特征合成转换目标语音。声音转换中的两个关键问题包括:1、建立精确的映射规则,即要拥有好的转换算法;2、获取代表说话人身份信息的说话人特征。声音转换主要任务就是要改变说话人特征,而其它的内容信息和说话环境信息则保留不变。其中主要变换两方面的说话人特征,音段特征(短时频谱)和超音段特征(基频)。在提取特征和转换合成语音时要用到语音分析合成模型,本文着眼点是在高质量STRAIGHT语音分析合成模型下所做的一些工作。   本文主要完成了以下几方面的工作:   (1)阅读国内外文献,了解语音转换的研究现状,熟悉各种语音转换方法的基础上,对其进行了优劣的比较。   (2)由语音识别采用动态特征参数得到启发,入耳对动态特征更为敏感。基于此,利用动态特征作为新的声学特征,用以提高声音转换质量。   (3)韵律特征反映了说话人的说话风格,尤其平均FO和语音速度对说话人识别的贡献很大,研究表明平均FO解释了55%的辨别说话人的能力。所以更好地变换韵律特征能使转换的语音更接近目标说话人。在目前韵律特征变换的基础上,本文采用了用联合矢量和CG-GMM模型的韵律特征变换方法,有效地改善了系统的转换性能。   (4)PSOLA算法是一种能在时域调节语音波形音长和音高的方法,PSOLA算法实时性好,且合成的语音无杂音,在时长基频调节范围很大的情况下,仍然能得到很好的音质。对此算法,本文进行了总结并在参考一些源码的基础上实现了此算法。通过(3)得到预测目标语音的韵律参数后,就可以用PSOLA算法实现韵律的调整。
其他文献
LAMOST建成后,预计能同时观测4000个目标天体,它将产生大量的光谱数据。这些海量数据的自动处理速度和质量是能否有效发挥天文望远镜潜力和实现科学目标的主要瓶颈之一。本论文
确保金融安全,一直都是国家和各级政府的重要工作,为了减少犯罪,保障社会经济工作的正常运行,政府和金融行业每年都要投入大量的人力、物力、财力,来防范金融领域的犯罪活动
本文面向LAMOST天体光谱自动识别与分析的研究需求,针对光谱自动识别与分析中的各个环节包括光谱的预处理、谱线的自动提取、光谱分类和红移测量等进行了一系列的研究。主要工
本文对激光散斑无损检测系统中的散斑条纹产生算法、条纹图象滤波算法、相位去包裹算法和缺陷识别算法进行了研究。对应用于本系统的一些现有算法的实现进行了优化,此外在分析
虚拟现实中的跟踪技术是虚拟现实技术和增强现实技术的重要组成部分,对虚拟现实系统和增强现实系统的实现、完善以及发展具有重要意义。本文在国家自然科学基金“虚拟外科手术
人在受到外界刺激或者进行主动思维活动时,脑神经细胞在大脑皮层会产生具有特异性、节律性的脑电信号。这种生物电信号不仅包含了大量生理或疾病信息,而且与人的意识状态具有
永磁同步电机(PMSM)由于其本身独特的优点,在数控机床,机器人等航天及工农业领域应用都非常广泛。所以,研究并制造出高性能,高可靠性的永磁同步电机交流伺服系统有十分重要的现实
学位
随着移动通信技术与市场的不断发展,移动数据通信已经成为数据通信发展的新方向。GPRS是在现有的GSM网络的基础上增加一些硬件设备和进行软件升级而形成的一个新的网络逻辑实
嵌入式实时系统是特定的计算机应用,它不仅必须满足各种逻辑关系,还必须满足指定的时间限制。除了高的可靠性和正确性要求,嵌入式实时系统大多都是异质的,特定的,设计具有这些特点