基于CRNN-HMM的声学事件检测方法研究

来源 :沈阳工业大学 | 被引量 : 0次 | 上传用户:woaini009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
声音承载着关于我们日常环境和发生在其中的物理事件等大量信息。基于音频内容搜索、语音识别、机器人、无人驾驶以及智能监控系统等,都是使用声学信息识别其环境中的活动。声学事件检测是在测试音频记录内标记时间区域并产生符号描述的过程,使得每个注释给出时间戳和声音事件标签。由于各类声音事件和声场中的时频特性变化较大,静止的背景噪声,声音事件的重叠等问题受到研究界的高度重视并进行了许多评估活动。面对以上问题,本文对声学事件检测的方法展开了研究。为实现声学事件的检测并提高声学事件检测的准确率,本文分别采用MLP和GMM分类器对六种声学事件进行分类并检测,MLP在平均事件F-分数高于GMM分类器4.6%,错误率相比GMM降低2%。通过实验结果对两种分类器做相关的比较,分析MLP和GMM在对声学事件检测问题上存在的不足,并证明基于监督学习的神经网络在固定数据集的声学事件检测任务中优于非监督学习的GMM聚类方法。为进一步对声学事件检测方法进行改善和提高,本文提出了基于CRNN-HMM的声学事件检测分类方法。在特征提取阶段,对音频提取MFSC特征,在声学分类器的构建阶段,将卷积循环神经网络应用于语音信号的频率维度上进行声学建模,隐马尔可夫模型用来处理时间维度上的关系,并且应用卷积循环神经网络的长时间上下文依赖状态处理相邻语音帧之间的相关性序列,即通过CNN、RNN和HMM三种方法的结合去对声学事件进行检测分类。本文在CNN中采用GLU作为激活函数,并且在音频分类中使用GLU将Attention机制引入到神经网络的所有层中,GLU可以机制控制着神经网络中的信息流动,通过这种方式,网络将学习关注音频事件并忽略不相关的声音。基于不同场景的背景音频和不同声音事件的混合音频数据的实验结果表明,当使用CRNN-HMM模型时,平均事件F分值比基线系统的MLP方法提高7.97%,与Bi-LSTM的方法相比平均F分值提高8.17%,错误率降低20%,在与混合模型DNN-HMM相比错误率提高了4%,F分数提高了3.67%。
其他文献
改革开放以来中国制造业飞速发展,中国现已成为名副其实的"世界工厂",但是中国制造业产品质量并不令人满意,存在低质量产品过剩而高质量产品稀缺的问题;与此同时,中国持续扩
档案管理是企业管理中的重要一环,一项一卷档案管理工作是档案管理员积极做好档案管理,配合审计部门做好内外部审计的重要方式之一。一项一卷档案管理可以促进档案管理工作上
"五四"诗歌翻译颠覆并重塑了中国诗歌的观念、体裁、语言,同时也消解了传统诗歌的表现技艺,重构了全新的表现技艺。崭新的诗歌表现手法极大地推动了新诗运动,使得新诗的抒写
文章结合机车车辆设计的实例,对其一、二系悬挂系统中的螺旋压缩钢弹簧设计过程中几个关键参数的选择和设计方法进行了探讨。
“中华文化与传播”是汉语国际教育硕士的学位核心课,在没有“量身定做”的教材的情况下,做好三个方面的基础工作显得尤为重要。第一,中华文化知识的讲授,要体现代表性、民族
丁二酸是工业上一种重要的四碳化合物,它作为有机合成原材料、中间产物或化学品,广泛应用于制药、食品添加剂、绿色溶剂及可降解塑料等多种领域。本文对发酵丁二酸的提取工艺
潼关战局与天宝中枢政局之关系发覆任士英(一)唐玄宗天宝十四载(755)十一月九日,身兼范阳、平卢、河东三镇节度使的安禄山在范阳(今北京市)举兵叛乱,到十二月十三日,即攻占了东都洛阳。唐
随着社会的进步与发展,电子商务时代已经来临,我们面对的是一个数字化办公的大环境,但是不能否认,纸质文件也在发挥一定的作用,如何在这两种文件并存的时期,管理并发挥好两种
<正>如何将菲律宾与其他表现出鲜明世袭特征的第三世界国家相比?显然,菲律宾是一个无法消灭政治专权,但却是将资本主义发展政治化的世袭制国家典范。马克思·韦伯着重分析了
目前大多数翻译项目都是时间紧、任务重,单靠个人无法按期完成,必须依靠翻译协作。单机版CAT软件,服务器版CAT软件,免费在线CAT软件,云CAT软件均可以实现翻译协作。本文集中