音频数据采集系统的设计与实施

来源 :北京邮电大学 | 被引量 : 1次 | 上传用户:a13315157220
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
音频数据采集系统通过网络爬虫和实时录音两种方式完成音频数据的采集,并使用信号处理与模式识别等技术实现将采集到的音频数据自动分类为语音、环境音和音乐三种类别。音频数据采集系统由三个子系统构成,分别是:网络音频数据爬虫子系统、音频实时采录子系统和音频数据分类子系统。本文的主要工作如下:(1)针对特定的媒体数据发布方式,设计并实施了基本的网络爬虫子系统。系统的爬取目标为北京广播网的各类音频广播节目和YouTube大规模音频数据集AudioSet,其中AuidoSet数据集主要被用于音频数据分类子系统的训练阶段,之后使用训练出的分类模型对从北京广播网中抓取到的各类音频广播节目进行语音、环境音和音乐三种音频类型的分类,为后续语者识别和语义级别的相关音频识别系统提供数据支持。(2)设计并实施音频实时采录子系统,并实现基本音频事件检测功能。系统使用多进程架构实现了基于高级Linux声音架构(ALSA)的音频采录功能,并在采录音频的同时实现了基于短时能量、谱平坦度和波峰谷差等音频特征的基本音频事件实时检测功能,即在实时录音的同时实现基本音频事件的实时标注,被标注后的数据将通过数据分类子系统进行更高层次的识别与分类。(3)实施并优化音频数据分类子系统,系统首先对基于长时音频段特征的音频数据分类系统(简称content系统)的非语音分类部分进行了性能测试和分析,然后依托基于DNN的语音/非语音检测系统提供的非语音类标签提取了新的特征并采用了新的分类模型对环境音和音乐进行分类,最终实现对语音、环境音和音乐三种音频类别分类性能的优化。优化方案主要包括训练数据集扩充、增加MFCC、VQT特征,使用决策树和随机森林等分类模型对环境音/音乐类型的音频数据分类的判别规则进行改进,最终提升系统分类模型的性能和识别准确率。
其他文献
衡山紫砂陶土矿位于浏阳-衡东北东向断裂隆起带南西端,含矿层为中侏罗统跃龙组上部,属一近南北轴向冷水冲向斜的两翼,矿物以伊利石为主,化学成分Al2O3、Fe2O3含量较高,矿石可塑性好,干燥与烧成
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
目的探讨双向心理护理干预对慢性心力衰竭(CHF)患者负性情绪及生活质量的影响。方法选取60例CHF患者,根据随机数字表法分为实验组和对照组。对照组30例给予常规护理,实验组30例
近年兴起养殖的超级黄粉虫,品种优良,繁殖系数高,生长快,抗病能力强。由于采用科学养殖技术,开辟了利用和转化农业有机废弃物资源的新途径,黄粉虫可将“大畜禽”不能转化的粗饲料转
数据库系统区别于其他系统的重要方面之一是DBMS具有有效地处理非常大量数据的能力,但随着数据量的增长,数据的检索速度日益捉襟见肘,如何提高数据的检索效率逐渐受到重视,特
提出了一种基于雷达导引头的多导弹多目标协同探测的信息融合方法。为了完成多目标协同探测与目标关联任务,基于联合概率数据互联(joint probabilistic data association,JPD
网络功能虚拟化(NFV)对通信技术是一个明显的变革,特别是对核心网络。首先从最明显的核心网网元及网络本身的变化和最深远的网元及网络建设方式的变化两个层次展开分析,另外,
有人说它不伦不类、不知所云,有人说它只是一部血浆堆积出来的怪异片。但来自北欧的影片《桑拿》还是以其特有的方式描述了一个有关救赎的故事。只有79分钟的该片讲的是1 959
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield