基于模型融合的音频分类与检索方法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:lummy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多媒体技术以及网络技术的迅速发展,使得人们拥有和面对的多媒体信息的数据量急剧增多。伴随着近年来移动互联网的迅猛崛起,大数据时代的概念已愈来愈被人们所接受。如何从如此海量的数据中挖掘出对人们有用的信息,如何快速准确地检索出所需要的信息,已经成为人们迫切的需要。特别是随着语音技术在手机等智能终端上的成功运用,使人们对普通音频的感知和检索的需求也越来越大,因此对音频分类及检索的技术需求也更加迫切。  本文在认真总结了前人研究成果的基础上,对基于内容的音频分类检索中的若干问题进行了探讨。基于所选择的特征,着重对音频分类和检索的各种建模方法进行了详细分析,并从不同的角度,利用模型融合的方法,提出了新的系统框架和模型。进行的主要工作有:  (1)音频特征的提取与分析。由于模型的建立及融合需要基于音频的特征提取和选择,因此本文首先介绍了一些常用音频特征的提取方法,然后基于音频分类的实验效果选择后续声学建模所使用的特征集。  (2)融合GMM与k近邻方法的音频分类。GMM模型是基于统计的方法,它在分类过程描述了类整体的统计特性,但掩盖了类内个体间的差异。k近邻分类虽然能够捕捉到个体的信息,却失去了把握类别整体信息的能力。本文基于模型的自适应,提出了一种融合GMM与k近邻分类的方法。新的方法兼顾类的共性与个体的差异性,取得较好的实验效果。  (3)融合短时特征和长时特征建模的音频分类。音频特征既有基于帧提取的短时特征,也有通过长时分析得到的段特征。两种特征反应了音频不同尺度上的特性。现有的分类方法都是基于其中的一种特征分类。本文提出了一个融合短时特征和长时特征的分类框架。通过将短时建模的概率得分作为长时特征以及引入置信度判别,使得音频的各个尺度的信息在分类中得以充分利用,从而提高了分类效果。  (4)融合直方图与LDA建模思想,基于Gaussian-LDA的音频检索。对于基于模板的音频检索,现有的直方图模型利用了短时特征在特征空间中的位置信息,将相似的短时特征聚为一类。但由于它使用了硬划分的矢量量化,导致了信息的丢失。以LDA为代表的主题模型则探索了短时单元在文件中共同出现的频率信息。但由于LDA主要用于处理字词等离散单元,它在音频检索中的使用需要基于直方图的离散化过程,使其性能受到影响。本文中提出了一种融合了直方图模型与LDA两种建模思路的新主题模型Gaussian-LDA。Gaussian-LDA将LDA中主题对词的多项分布变为对音频特征的高斯分布。它在建模过程中,兼顾了短时单元在特征空间的位置信息和在文件中共存的特性,避免了直方图所导致的离散化,表现出了更好的检索性能。
其他文献
学位
学位
学位
学位
学位
学位
学位
学位
服务平台掌控了多元化的服务器资源,用于满足行业用户各种各样的资源需求。然而,硬件资源并非永不枯竭。如何管理和分配有限的平台资源,使之尽可能被充分利用,是平台所面临的重要
学位