基于模型融合的音频分类与检索方法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户：lummy

【摘要】

：

多媒体技术以及网络技术的迅速发展，使得人们拥有和面对的多媒体信息的数据量急剧增多。伴随着近年来移动互联网的迅猛崛起，大数据时代的概念已愈来愈被人们所接受。如何从如此

【作者】

：

胡鹏飞

【机构】

：

中国科学院大学

【出处】

：

中国科学院大学

【发表日期】

：

2013年期

【关键词】

：

音频分类模型融合主题建模检索方法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

多媒体技术以及网络技术的迅速发展，使得人们拥有和面对的多媒体信息的数据量急剧增多。伴随着近年来移动互联网的迅猛崛起，大数据时代的概念已愈来愈被人们所接受。如何从如此海量的数据中挖掘出对人们有用的信息，如何快速准确地检索出所需要的信息，已经成为人们迫切的需要。特别是随着语音技术在手机等智能终端上的成功运用，使人们对普通音频的感知和检索的需求也越来越大，因此对音频分类及检索的技术需求也更加迫切。　　本文在认真总结了前人研究成果的基础上，对基于内容的音频分类检索中的若干问题进行了探讨。基于所选择的特征，着重对音频分类和检索的各种建模方法进行了详细分析，并从不同的角度，利用模型融合的方法，提出了新的系统框架和模型。进行的主要工作有:　　(1)音频特征的提取与分析。由于模型的建立及融合需要基于音频的特征提取和选择，因此本文首先介绍了一些常用音频特征的提取方法，然后基于音频分类的实验效果选择后续声学建模所使用的特征集。　　(2)融合GMM与k近邻方法的音频分类。GMM模型是基于统计的方法，它在分类过程描述了类整体的统计特性，但掩盖了类内个体间的差异。k近邻分类虽然能够捕捉到个体的信息，却失去了把握类别整体信息的能力。本文基于模型的自适应，提出了一种融合GMM与k近邻分类的方法。新的方法兼顾类的共性与个体的差异性，取得较好的实验效果。　　(3)融合短时特征和长时特征建模的音频分类。音频特征既有基于帧提取的短时特征，也有通过长时分析得到的段特征。两种特征反应了音频不同尺度上的特性。现有的分类方法都是基于其中的一种特征分类。本文提出了一个融合短时特征和长时特征的分类框架。通过将短时建模的概率得分作为长时特征以及引入置信度判别，使得音频的各个尺度的信息在分类中得以充分利用，从而提高了分类效果。　　(4)融合直方图与LDA建模思想，基于Gaussian-LDA的音频检索。对于基于模板的音频检索，现有的直方图模型利用了短时特征在特征空间中的位置信息，将相似的短时特征聚为一类。但由于它使用了硬划分的矢量量化，导致了信息的丢失。以LDA为代表的主题模型则探索了短时单元在文件中共同出现的频率信息。但由于LDA主要用于处理字词等离散单元，它在音频检索中的使用需要基于直方图的离散化过程，使其性能受到影响。本文中提出了一种融合了直方图模型与LDA两种建模思路的新主题模型Gaussian-LDA。Gaussian-LDA将LDA中主题对词的多项分布变为对音频特征的高斯分布。它在建模过程中，兼顾了短时单元在特征空间的位置信息和在文件中共存的特性，避免了直方图所导致的离散化，表现出了更好的检索性能。

其他文献

基于视觉的道路场景理解与描述系统的研究

学位

基于AVS的移动视频会议终端的设计与实现

学位

基于Web Service的行政审批系统的设计与实现

学位

求解卫星应急调度问题的策略研究

学位

基于GPU的故障模拟和测试向量选择方法

学位

基于多源信息融合的音乐推荐关键技术研究