论文部分内容阅读
音频数据采集系统通过网络爬虫和实时录音两种方式完成音频数据的采集,并使用信号处理与模式识别等技术实现将采集到的音频数据自动分类为语音、环境音和音乐三种类别。音频数据采集系统由三个子系统构成,分别是:网络音频数据爬虫子系统、音频实时采录子系统和音频数据分类子系统。本文的主要工作如下:(1)针对特定的媒体数据发布方式,设计并实施了基本的网络爬虫子系统。系统的爬取目标为北京广播网的各类音频广播节目和YouTube大规模音频数据集AudioSet,其中AuidoSet数据集主要被用于音频数据分类子系统的训练阶段,之后使用训练出的分类模型对从北京广播网中抓取到的各类音频广播节目进行语音、环境音和音乐三种音频类型的分类,为后续语者识别和语义级别的相关音频识别系统提供数据支持。(2)设计并实施音频实时采录子系统,并实现基本音频事件检测功能。系统使用多进程架构实现了基于高级Linux声音架构(ALSA)的音频采录功能,并在采录音频的同时实现了基于短时能量、谱平坦度和波峰谷差等音频特征的基本音频事件实时检测功能,即在实时录音的同时实现基本音频事件的实时标注,被标注后的数据将通过数据分类子系统进行更高层次的识别与分类。(3)实施并优化音频数据分类子系统,系统首先对基于长时音频段特征的音频数据分类系统(简称content系统)的非语音分类部分进行了性能测试和分析,然后依托基于DNN的语音/非语音检测系统提供的非语音类标签提取了新的特征并采用了新的分类模型对环境音和音乐进行分类,最终实现对语音、环境音和音乐三种音频类别分类性能的优化。优化方案主要包括训练数据集扩充、增加MFCC、VQT特征,使用决策树和随机森林等分类模型对环境音/音乐类型的音频数据分类的判别规则进行改进,最终提升系统分类模型的性能和识别准确率。