面向音色转换的歌声合成方法研究

来源 :福州大学 | 被引量 : 0次 | 上传用户:gtsmk2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,伴随着人工智能和模式识别等相关技术的兴起和日渐成熟,人们对更高智能化的人机交互有着强烈的需求,这种需求使得音频信号处理成为了当前热门的研究领域。歌声的音色转换是音频信号处理中的一个新兴课题,目前针对歌声音色转换的相关研究成果较少,且大部分研究工作都继承了语音音色转换的理论和方法。然而语音音色转换方法大多都是“一对一”的,只针对特定的源说话人和特定的目标说话人,并且依赖于平行数据集。显然,这种模型的泛化能力很差,且不适用于对歌声的音色转换。为此,本文以非平行数据集下的“多对多”的歌声音色转换模型为主要研究目标,以歌手的清唱音频信号为研究对象,构建了人声音色表征模型,对歌手的音色进行合理的表征;接着基于人声音色表征模型进而构建了面向歌声音色转换的模型,对歌手演唱的歌声进行音色转换;最后对音色转换后的歌声做进一步的处理和降噪,得到音质更好的音色转换后的歌声。首先,本文提出一种基于深度卷积神经网络和迁移学习的人声音色表征方法。该方法通过大量乐器音频数据训练得到基于深度卷积神经网络的乐器音色表征模型,再利用少量人声音频数据和迁移学习的方法对乐器音色表征模型进行微调,进而得到人声音色表征模型。实验结果表明由乐器音色表征模型和人声音色表征模型提取出的相应的音色特征在音色分类实验中有较好的表现。其次,本文融合人声音色表征模型,提出了一种基于变分自编码-生成对抗网络的歌声音色转换模型。该模型不依赖于平行数据集,突破了传统音色转换模型对平行数据集的依赖,且支持“多对多”的语音和歌声音色转换。实验结果表明,经由该模型生成的音色转换后的语音和歌声,不仅在MFCC误差这一客观指标上比传统平行数据集下“一对一”的音色转换模型有更好的表现,而且在主观MOS评分上,也优于传统模型。最后,本文利用由受限玻尔兹曼机堆叠而成的深度神经网络模型实现了对音色转换后音频的降噪。实验结果表明,深度神经网络降噪模型可以有效地抑制音色转换后音频中的噪声,改善其信噪比,同时提高音频的质量。
其他文献
对于宪政改革,就欧洲的历史经验而言,大多数现代宪政国家都是由绝对主义国家过渡而来,日本明治维新的成功也证明了这无论对于西方还是亚洲专制国家而言都是一条具有可行性的
笔者连续多年担任杭州科技职业技术学院《会展项目管理》课程任课教师,并不断进行基于项目驱动,任务载体的课程改革探索,本文在多年教学改革实践的基础上,总结经验,构建了“
林业病虫害是影响和制约林业发展的关键性因素,病虫害不仅会对林业造成巨大的经济损失,还会影响森林的整体发展,因此,如何做好病虫防治工作对维护林业健康发展具有重大意义。
在我国宏观经济逐渐由追求经济的数量增长向追求经济的质量增长转变的过程中,“供给侧结构性改革”明确地提出了“降成本”等具体的目标。对于微观企业而言,利润是收入扣除成
目的测定麦冬药材及其提取物中甲基麦冬黄烷酮A(MOA)和甲基麦冬黄烷酮B(MOB)的量,为麦冬药材及其提取物的质量控制提供科学依据。方法采用HPLC-UV法测定麦冬药材和提取物中MO
针对汽车ABS检测问题,本文在深入研究ABS工作原理的基础上,设计了一种新型汽车ABS性能检测台。主要做了以下工作:对新型汽车ABS性能检测台进行机械结构设计,包括总体结构设计
在探月工程、北斗导航系统、火星探测等项目中,超声电机可用于精确控制机构的运动精度,其具有定位精度高、响应快速、断电可自锁,温度适用范围广等优点,已成为高精度驱动部件
建设节水型社会是国家可持续发展的重要战略选择之一.介绍了美国节水发展的历史和现状,分析了其发展趋势,对我国建设节水型社会有借鉴价值.
<正> 日本某厂商宣布,打算在1980年开始生产带有双层玻璃荧光屏的电视机。它利用液晶代替通常的电子显象管来工作。这将是世界上第一批采用液晶的家用电视机,它们可以象照片
在小说中,对话对人物形象的刻画起着至关重要的作用。人物对话中包含着丰富的人际意义。人际意义是系统功能语言学中的一个关键概念。说话人可以通过对话表达人际意义的多个