面向短时特定人声的多情感语音合成技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:tony_one
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音是人们日常生活中获取信息的重要途径,使用机器模拟人类发声输出语音信息在智能设备等诸多领域有着广泛应用。在语音合成领域中,先后出现了传统的波形切分重构的拼接合成方法、修改韵律声学特征的语音合成方法和使用隐马尔可夫模型的统计参数语音合成方法。但是由于这些传统合成方法具有对数据集依赖较强、合成语音具有明显拼接痕迹、合成系统流程繁琐的特点,难以在实际中投入应用。近年来,机器学习、深度学习的相关技术蓬勃发展,深度神经网络应用于语音合成领域取得了亮眼成果。同时,如何在合成语音中嵌入情感标签,使其能够更加接近自然人发声,以及如何接收短时语音信号作为参考,从中提取说话人特征和情感参数,从而实现快速、即时的目标语音生成,均为目前语音合成领域的重点关注内容。本文在原有语音合成技术基础上,重点研究如何面向短时特定人声合成具有目标情感的语音信号。面向短时特定人声的多情感语音合成模型研究主要分为两部分:在大规模数据集上基于深度神经网络的平均音模型训练,以及在情感语音数据集上的迁移生成对抗训练。在平均音模型训练过程中,本文对传统输入文本进行音素化处理,将一部分原本需要从上下文文本中学习到的信息显式表示出来,以减少文本嵌入向量在时序上的耦合性,为模型时间性能优化提供了改进空间。在模型训练阶段,采用简单循环单元SRU替换循环神经网络RNN的单元结构,去除了模型训练在时序关系上的依赖性,因此能够在训练过程中使用并行计算的方法提升模型的训练速度。在面向短时特定人声的多情感语音合成模型中,本文采用迁移学习的思想,引入生成对抗网络训练的方法,将平均音模型迁移为情感语音GAN的生成器,同时构造基于神经网络的判别器,分别对输入的文本信息和语音信号进行编码,提取文本嵌入向量和情感风格嵌入向量,使用小批量判别方法进行生成对抗网络训练。实验结果表明,本文得到的面向短时特定人声的多情感语音合成模型能够有效构造具有目标说话人特征的情感语音信号,并在主观评价和客观评价上均具有良好表现。
其他文献
学位
随着计算机行业的快速发展以及各种图像采集设备质量的迅速提升,商业摄影的人像美化受到广泛关注。目前,人像摄影图像后期处理仍主要依靠人工完成,其精修过程需要耗费大量时间和精力。因此,开发一款面向商业人像摄影的自动后期修饰软件具有十分重要的理论意义和应用价值。现有的人像美化软件大多面向移动端拍摄的图像,当其应用于摄影图像时会使皮肤区域过于平滑而失去质感,对背景颜色和细节也有一定程度的破坏。本课题借助深度
在农业生产当中,除草一直是一个非常影响作物产量的重要工作,现有的机械除草、化学除草等除草手段存在着非常消耗人力、对环境污染较大等各种问题。因此,在现代化的智慧农业生产当中,如何更加高效环保地进行除草一直是一个非常重要的研究课题。基于深度学习的计算机视觉技术的发展使得农田中的杂草识别定位变得更加精准,推动了机器智能除草的快速发展。基于自动识别定位杂草的机器智能除草技术能够自动按需喷洒农药,在解放人力
自改革开放以来,中国经济迅速腾飞,其中离不开制造业的迅速发展。目前我国制造业已经形成了门类齐全、独立完整的产业体系,但与世界发达国家先进制造业水平相比,仍然具有很大的距离,究其原因是中国制造业创新能力偏低。随着中国经济逐步迈入“新常态”,对我国经济发展质量提出了更高的要求,为此国家提出了“中国制造2025”战略,对于制造业企业来讲,进行制造业的创新与产业升级、构建制造业“国内国际双循环”的新发展格
目标辐射源定位技术在当今世界的电子信息战中扮演着重要的角色,在超视距目标探测领域,短波目标辐射源精确的位置信息具有举足轻重的地位。随着信息技术的不断发展,电磁环境逐渐变得复杂多变,军用雷达对于定位精度的要求越来越高。传统的短波目标辐射源定位方法大多是基于两步法的,此类方法的计算复杂度相对较低,因此适用于实际工程应用。但其也存在一些局限性,此类方法忽略了接收数据的内部联系,在第一步提取相关参数的过程
在全球范围内,肺癌正逐渐成为癌症致死的主要原因。大多数肺癌是由恶性结节引起的,肺癌早期诊断需要在胸部CT(Computed Tomography)图像中查找肺结节。近年来,计算机辅助诊断方法成为人工智能领域和医疗图像领域研究的热点,在智慧医疗和快速诊断方面有着实际应用价值。本论文基于胸部CT图像针对肺结节辅助诊断方法进行研究,主要包括肺结节检测、肺结节分割和肺结节良恶性分类。本文具体研究内容如下:
随着《中国制造2025》规划和“十四五”国家重点研发计划颁布和实施,3D打印技术在航空航天、汽车制造、智能装备、生物医药等领域发挥的作用将进一步提升。熔融沉积式(FDM)3D打印技术作为3D打印技术应用最为广泛的形式之一,受到越来越多研究人员的关注。目前对FDM型3D打印喷头的研究中,对于挤出口尺寸可调节的喷嘴研究有限。挤出口尺寸固定的喷嘴在打印时需经过点—线—面—体成型,打印速度慢,打印效率低。
随着工业互联网的发展,世界各国正在围绕工业制造进行数字化革命,加速构建智能化生产、个性化定制和协同生产等特征的工业新生态。领域知识库作为一种特殊且常用的数据库,高效率地构建领域知识库是目前研究的主要难点。然而在以往的研究中,大多数学者忽略了本体所能表达的详细内容。领域知识是复杂多样的,通过现有的本体描述方法无法较好的展示领域知识。另外工业互联网是全新的工业生态。工业机理在工业生产中十分常见,是包含
企业可持续成长是引领中国经济高质量发展的关键。由于疫情爆发、新兴产业冲击、盲目转型等诸多原因,企业成长速度明显放缓。面对复杂严峻的国内外经济环境,企业亟需培育成长新动能。现有研究仍主要聚焦于传统工业时代内外部因素对企业成长的影响,忽视了数字经济时代下,数字技术应用在企业成长中发挥的重要作用。数字技术应用作为企业成长的新动能,对企业成长产生重要影响。数字技术应用能够加快企业对市场动态的反应,帮助企业
得益于互联网的飞速发展,社交网络应用平台已经成为最大的舆情发酵中心,产生了大量反映社会舆论倾向的数据,这些数据文本立场明确、网络组织结构离散、内容特征稀疏,而现有舆情相关研究一般聚焦于文本情感、网络结构或用户属性。本文从立场群体出发,展开热点话题提取、文本立场检测和群体挖掘三方面研究以呈现舆情全貌,主要研究成果如下:第一、热点话题提取方法研究。现有方法不是操作流程繁琐,聚类与话题词提取任务分离,就