论文部分内容阅读
随着多媒体技术的快速发展和互联网的迅速普及,可供人们使用的多媒体素材规模急速增长,不同类型的多媒体数据融合的应用也逐渐增多。现实中,大量跨媒体融合应用需要对乐曲时长进行约束,以便满足应用场景对乐曲的时域要求。然而,当用户所需时长与乐曲原长差别稍大时,现有的音乐处理技术均无法产生满足用户所需时长的高质量乐曲版本。本文提出的音乐重构技术旨在通过音乐结构分析,有效利用剪切、冗余插入、时域拉伸、时域压缩、整曲重复等基本操作,自动生成满足用户指定时长的乐曲版本。本文的工作包括:1.通过观察乐曲音频时域压缩抗性与歌唱速度的关系,提出了一种基于歌词密度的非均匀音乐时域压缩算法。该算法通过歌词密度估计乐曲中各个乐曲段在时域压缩后的质量衰减情况,而后根据乐曲的质量衰减分布非均匀地分配乐曲中各段的压缩率,从而缓解乐曲因时域压缩产生的听觉瑕疵现象。2.考虑音乐时域修改对乐曲音频内容的影响,提出了一个基于音频特征和歌词特征的伸缩抗性评估模型,并给出了基于该模型的音乐时域伸缩算法。实验证明,该算法可适用的伸缩率范围更广,在相同伸缩率下产生的重构乐曲的质量相比现有技术具有更好的音频质量。3.为了减缓重构过程中剪切操作和插入操作对重构后乐曲旋律及内容连续性的影响,提出了保持边界连续的乐曲段序列冗余插入/剪切算法。该算法以乐曲段重复检测技术为基础,通过分析相同乐曲段在原始乐曲中的上下文关系获得乐曲连续性约束模型,进而找出不破坏乐曲连续性的最佳剪切/插入方案。4.总结了现有音乐编辑的基本操作,归纳出可用于解决音乐重构问题的五个基本操作—时域拉伸、时域压缩、整曲重复、剪切和插入。根据各个基本操作的实现特点,提出了一种通用的音乐重构框架,可依据所需目标时长实现自动化的音乐内容重构,产生满足所需时长约束的乐曲版本。