论文部分内容阅读
音频信息检索技术是多媒体信息检索技术中的一个重要组成部分,而音频分类技术作为音频检索技术的基础,也越来越被受到关注。基于内容的音频分类是一个涵盖十分广泛的研究领域,为了使计算机能够像人那样对音频语义实现自动理解,这个领域的研究从初始对原始音频流分析向目前感知理解发展,从实际认识向抽象理解发展,因为人脑对事物的理解是抽象的,是基于知识的。
目前,已经有很多学者对基于内容的压缩音频分类方法进行了研究,但已有方法普遍存在一些不足之处,如对人耳的听觉特性考虑较少,没有较好地利用音频压缩编码过程中的计算结果等等。到目前为止,还没有一个既能实现高正确率、又能实现高效率的同时针对纯音乐音频和非纯音乐音频的分类算法。
本文设计了一种在压缩域上对音频进行基于内容的分类系统,并对系统的分层结构和系统各个模块的实现方法和原理进行了深入的分析和探讨。
本文所采用的方案的优势在于,充分利用了编码器的计算结果,充分考虑了人耳的听觉特性,还使用了心理声学的研究成果。
另外,本文还对从压缩音频中提取参数的含义做了较透彻的分析。并通过实验结果检验了方法的有效性,在理论和实践两方面验证了方法的正确性和可行性。