论文部分内容阅读
在科学技术快速发展,数字化设备大量普及,多媒体设备数量飞速增长的环境下,作为多媒体数据重要组成部分之一的音频数据,其信息量也在不断扩大。传统的基于文本的音频检索已经无法满足人们对于音乐检索的需要。因此找到一种更加快速有效的音频信息检索方法,已经成为目前亟待研究的一个重要课题。基于内容的音乐检索方式,从一个崭新的角度来辨义音乐信息,从音乐的幅度、频谱、旋律、音高和节奏等内在信息进行音乐的检索。哼唱音乐检索的核心技术就是哼唱音乐的特征提取和音乐旋律的近似匹配,其中旋律的特征表示,本文用的是音高和音长信息。这种基于哼唱的音乐检索在音乐的快速查询、歌手的训练以及帮助作曲家们自动记谱等方面都有很好的应用前景,有可能成为下一代音乐检索的核心技术之一。本文主要做了以下工作。首先分析了信号的基本预处理方法,包括小波去噪,预加重及加窗分帧等;然后对语音信号的时域、频域的基本特性进行描述,包括短时能量,自相关性及过零率等,再提出一种经过小波去噪和线性预测预处理之后,加权自相关函数和平均幅度差函数的算法来提取基音信息,最后验证了该方法能在精度较高的情况下提取出音频信号的基音频率;在此基础上介绍了传统的音乐检索匹配算法,再根据提取出的音符的音高和音长信息,提出一种基于音高差的隐马尔科夫模型再加权音长比的方法,来进行搜索匹配,最终得到最佳匹配音乐;最后本文设计了一个基于基音频率的音乐哼唱检索系统,经过实验验证该系统对于音乐片段的检索具有较高的准确性,并且对于噪声具有相对较好的鲁棒性。