论文部分内容阅读
随着计算机图形学技术的不断发展,人们对视频及动画的声音质量提出了更高的要求。除了为人物配音工作外,其他声效的生成我们称之为拟音。而这一工作目前大多是由经验丰富的拟音师手工完成。为了能够自动地完成拟音工作,以水场景为例,现有工作大多采用基于物理的方法对小规模水场景进行声音生成。这类方法的算法复杂度高,不适用于较大规模户外水场景的声音生成。为此,本文分别利用非物理的声音生成技术以及深度学习的技术提出了两种能够适用于户外水场景声音生成的方法。现有基于物理的声音合成方法需要对水中气泡(水场景主要声源)进行模拟和提取处理,算法复杂度高,为了提高算法效率使其能够应用于户外水场景的声音生成,本文提出一种基于样本的声音生成方法。该方法面向海浪对象进行声音生成,通过基于粒子深度的分类机制取代现有算法中复杂度较高的气泡模拟方法,对海浪中气泡粒子进行高效的生成。之后,本文将大量提取所得的气泡粒子划分到少数网格中以此减少海浪聚类过程中的计算量。通过对经由贪心算法聚类之后的海浪的属性以及声音片段属性的映射,本文最终利用用户给定的声音样本实现了海浪场景声音的高效高质量生成。本文方法基于海浪场景的特性而设计,当流体模拟方法或者模拟的对象改变之后,此方法将无法直接应用。另外,对于无法获取流体状态的水场景视频,也无法用上述方法生成对应的声音。为了避免上述方法的局限性,本文设计了一种基于深度学习的水场景声音生成方法。此方法可以自动的学习视频中水场景的不同状态与声音之间的关系,从而实现端到端的由水场景视频到其对应音频的生成。由于此跨模态任务具有较高的难度,本文选用学习能力较强的GAN模型作为整体网络的原型。通过对视频的预处理、生成器和辨别器的设计与训练,本文的方法能够合成与输入水场景视频相对应的声音。为了进一步提升音频质量,我们设计了一个音色增强网络来优化最终的声音结果。此外,我们还提出了两个评价指标用于定量的评估生成结果的质量。实验结果证明,该算法可以生成包括瀑布、海浪、雨等在内的多类户外水场景的声音,结果真实感强。