语音转换中特征参数及其转换方法的研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:maria76
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音转换技术实现的是两个不同说话人声音个性特征之间的转变,即以目标说话人的声音特征为导向,通过改变源说话人的个性特征使之具有目标说话人的特征,从而改变源说话人话音的听觉效果。本文主要研究语音个性特征参数的转换方法,实现语音参数的有效利用以及转换效果的增强。主要工作如下:(1)对基音频率、语速等韵律特征的调整进行研究。本文在实现基音频率转换的同时,提出用高斯法作为源和目标语音时长的映射规则,并利用按照获得的时长比例来进行内插的方法实现目标语音时长的调整,从而使合成的语音时长更接近目标语音,提高语速的相似度。(2)对声道特征参数的转换规则进行研究。人工神经网络的泛化属性有助于实现说话人特征的转换,但网络的训练通常存在隐含层节点较多导致网络结构较复杂的问题。因此,本文提出基于改进的径向基函数神经网络的声道特征参数转换方法。该方法用K均值算法作为神经网络中心值算法,并利用粒子群优化算法对网络隐含层的节点数进行优化,有效地提高了径向基函数网络对多维非线性特征参数拟合与转换效率,从而提高转换语音与目标语音的相似度。(3)对语音转换系统进行完善。由于提取的声道特征参数通常具有数据量较大的特点,而且对于同一条将要转换的测试语音,不同数据段训练得到的转换规则其转换效果有所不同。为了充分利用提取的参数,本文提出用高斯混合模型对提取的大量特征参数进行预处理,得到数据量较小并且特征性较强的训练参数。因此,在改进神经网络转换算法的基础上,加入特征参数预处理模块以及时长调整模块,完善语音转换系统的同时提高转换语音的质量。
其他文献
图像语义标注作为图像场景理解的核心之一,已成为图像处理与计算机视觉领域的研究热点。室内场景存在大量语义类别、互相遮挡、低层视觉特征辨识力较弱以及不均匀光照等问题,
随着互联网这个新兴的信息传递媒体的迅猛发展,互联网信息急剧膨胀,如何从海量网络电子文档中及时准确地找到需要的信息己经成为一个函待解决的问题,信息抽取正是在这样的背景下
“大数据”(Big Data)时代的到来带来了飞速增长的信息量和信息处理任务。传统的奈奎斯特采样定理提出的最低采样速率在面对超宽带信号或冗余度较高的信号时,不仅在采样端处
随着技术的不断发展,日益成熟的视频监控系统广泛应用于各个行业用户并逐步向个人用户扩展。视频压缩算法作为视频监控系统中核心技术之一,直接影响视频监控系统的性能和整体
期刊
随着数字移动通信和多媒体通信技术的飞速发展,需要有低码率的语音编码器来解决宽带资源的限制。研究者们相继推出了多种基于参数编码和混合编码的中低码率的语音编码器,国际
随着信息技术的不断发展与成熟,特别是基于IP技术的互联网的出现和广泛使用,极大地改变了社会生活的每一个方面,使人类生活发生了根本性的变化。目前互联网已经成为国家信息基础
正交频分复用(OFDM)是一种特殊的多载波传输技术,它可以适用于高速无线系统多媒体传输的需求。信道估计作为OFDM系统中一个重要的环节,因此有必要对OFDM系统信道估计算法做深
电子技术的快速发展推动了智能卡界的发展,同时,智能卡的发展也涉及到许多领域,尤其在移动通信领域发展最为迅速的是电信SIM卡。SIM卡在2G时代的主要应用是语音业务和用户鉴权。
随着互联网的普及,VoIP技术在商业运营中的应用价值逐渐被人们发现并取得了爆炸式的增长。近年来,随着产业界的融合趋势,我国电信网络面临的压力越来越大,当前的PSTN,PLMN网络难以