基于深度置信网络的音频语种识别

来源 :北京邮电大学 | 被引量 : 1次 | 上传用户:wxrwzzsh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语言是人类特有的交流沟通最重要的方式,在社会经济全球化的大背景中,人与人之间的交流越来越频繁和密切。语言的多样性成为了人们交流的一个障碍。于此同时,随着互联网络和多媒体技术的发展,网络中涌现大量的音视频数据,跨越语言障碍成为获取其中的有效信息的一项关键环节。计算机语音处理和识别技术以研究自然语言理解、说话人身份识别等技术为目标,成为模式识别的一个热门领域,在多媒体信息服务和军事安全领域等领域有着重要的作用和意义。目标语种识别主要检测含有目标语种的语音信息,是语音识别的前端处理技术,在语音处理中具有重要作用。目前,目标语种识别技术依然存在系统鲁棒性不佳、短时语音识别率不高、处理速度低等问题,制约了语种识别技术的发展。本文针对语种识别中存在的问题,拟尝试将深度学习方法用于语种识别,以改进语种识别的不足。本文的主要工作有:(1)实现并改进了一种传统HMM目标语种识别方法。本文在13维MFCC特征的基础上,融合带宽、频谱质心、频谱变迁、基因频率方差、静音帧比例、4维的子带能量比、过零率、低频能量比共24维的声学特征作为HMM的输入特征向量训练得到语种模型,使用Viterbi算法解码得到未知语种音频对于两个模型的得分。在直接对比模型得分得到语种类别策略的基础上,增加了非线性映射的归一化方法,识别模型的识别率较直接判决的效果提高了 2%。(2)提出了一种基于DBN的目标语种识别方法。本文将DBN模型应用于目标语种识别系统中,用DBN对输入原始特征提取高层次描述,并在输出层用逻辑回归做分类。实验表明,基于DBN的目标语种识别系统对于短时语种识别有较好的识别效果,相比于HMM系统识别率有较大的提升,同时,多特征融合的方法也可以有效的提高识别率。对于相近语种,DBN系统识别性能表现出一定的局限性。
其他文献
针对当代大学生幸福感受外在客观因素和个人主观因素影响,采用定量和定性相结合的分析方法,建立二元logistic回归模型。结果发现:当代大学生感觉幸福总体比例较高;性别、性格、专
针对污水处理厂电气设备的特点,提出供配电系统的设计原则。结合工程案例,介绍了污水处理厂供配电系统的设计方案。遵循污水处理厂各工艺流程,兼顾其经济性及实施难度等因素,
目的总结分析指固有动脉背侧支岛状皮瓣修复手指热压伤的疗效。方法2008年5月至2012年5月,手指热压伤创面12例15指,创面清创后均伴有肌腱和/或指骨外露,缺损面积1.5cm×2.0cm~2.2
当今我国城镇化的快速发展催生了许多城市病,人们的生活环境面临严重挑战,城市病日趋恶化已严重制约着城市的健康发展。近年来围绕着城市生命体的健康研究和探索虽然在某些层
自动售货机为快节奏生活的人们带来了极大便利,因而备受青睐。但是它当前仍主要是由人工管理,且分布零散,难于监控管理等。鉴于此,本研究采用PLC为控制核心的售货机可以克服
随着社会经济的发展,人们对于服装的要求越来越高,服装的量身定制与设计的个性化也成为一种趋势。近些年来,非接触式的三维人体测量技术发展迅速,使得量体裁衣与个性设计变得
随着口腔正畸治疗中的各种矫治技术和方式不断发展和完善,矫治方案逐步优化,但正畸治疗时间长以及正畸治疗过程中的不适感依然是广大正畸患者面临的问题。正畸牙移动依赖于正畸力作用下的牙周组织改建,骨组织改建在这个过程中尤为重要,如何缩短正畸治疗时间,加快正畸牙移动速度成为近年来正畸治疗研究热点之一。同样的,在牙周炎发展进程中,牙槽骨的丧失会导致牙齿脱落,如何减缓牙槽骨的破坏在牙周炎治疗过程中也是一个迫切需
社区是国家和社会关系的交汇点,是社会互动最频繁、社会冲突最集中的场所。化解社区冲突一向被视为政府管理的重要内容,以政府为主导的维稳模式也是长期以来我国维持长治久安
开源软件运动的客观发展给当代中国软件领域的展带来了较为强大的变革力量,本文阐述了开源软件行业的发展现状及推动力量,分析了我国中小企业信息化建设中的现实需求,讨论了
毛竹(Phyllostachys pubescens)是我国分布最广、面积最大的经济竹种,其集约经营引起的多种生态环境问题已引起人们的普遍关注。更重要的是不同学者已研究发现施肥、翻耕等毛