基于Sphinx4的语音解码模块设计

来源 :中国科技博览 | 被引量 : 0次 | 上传用户：telecom_god0221

【摘要】

：

【作者】

：

肖家立吴方林楷东

【出处】

：

中国科技博览

【发表日期】

：

2016年16期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

　　中图分类号：TN97 文献标识码：A 文章编号：1009-914X（2016）16-0167-01
　　随着AlphaGo（围棋人工智能程序）在2016年初击败了世界围棋冠军后，人工智能技术的研发与讨论继续走向一个新的高峰，而语音识别技术则是其核心内容。
　　本文主要基于语音识别技术的语音解码模块进行讨论，从其涉及技术、设计、实现进行全面描述。运用解码器进行解码操作，通过搜索算法在解码端寻找最优词串，搭建和训练声学模型，并提高语音识别率。本项目基于一个完整的Android软件作为依托，但由于篇幅有限，本文重点讨论离线语音包、搭建语言模型、以及语音解码模块的设计过程。
　　1.项目背景
　　语音识别技术是能够将人的语音信号转换成机器可以识别的指令的一种方法，通过指令来控制机器的正常运转。语音识别的任务主要包括：孤立词识别、关键词识别、连续语音识别等。
　　市面上的离线语音识别一直不成熟，识别慢、识别率低等问题一直被人诟病。本项目离线语音识别部分是基于Sphinx-4自行训练得到的声学模型和语言模型，在小词汇量识别方面尽量提高其识别率。
　　2.需求分析
　　一个成熟的语音识别系统可以划分为特征提取、声学模型训练、语言模型训练和解码器四个重要组成部分；而离线端语音解码模块，包括了对原始语音进行信号处理、特征提取、通过Viterbi动态规划算法搜索最优结果、语义分析及输出文本结果等步骤。
　　1、原始信号处理：获取通过麦克风按钮接收到的原始音频数据，过滤非必要信息以及背景噪音对语音前端点和后端点进行截取，对语音信号分割成若干个进行分析；
　　2、特征提取：根据sphinxbase语音系统给出的接口，提取出语音信号的关键特征，并将其生成一个序列，以供解码处理时搜索这个隐式序列，得出结果；
　　3、算法搜索最优序列：根据Viterbi算法设计出计算序列中出现概率最大的词串的方法，搜索出每一帧语音信号的最优路径，输出结果；
　　4、语义分析及输出识别结果：根据孤立的关键词判断搜索出来的语音结果属于哪一个应用场景，如“打电话”、“发短信”、“上一频道”、“下一频道”等等孤立词；
　　离线语音解码模块流程如下图2-1所示：
　　3.系统设计
　　3.1.特征提取
　　特征提取的主要目的是减少语音噪声静音等无用的杂讯，获取必要的讯号数据，将数据转换成电脑可以识别的数字信号，以便作识别和语义分析。
　　本语音识别技术模块基于Sphinx4语音识别系统进行开发的，其中声音的预处理是利用MATLAB这一便于算法开发的软件来实现对语音信号进行数字处理与分析，也可称为特征处理。其包括对原语音信号进行预加重处理，然后需要进行分帧和加窗、采样和量化、端点检测等。
　　其中，包括：预加重处理、分帧、量化处理以及语音端点检测等过程。如下3-1所示：
　　3.2. 基于动态规划的Viterbi算法
　　动态规划算法的基本思想是将问题分解成若干个子问题，求解子问题，最后从子问题的解中得到原问题的解。通常利用动态规划算法解决问题的步骤是先找出最优解的性质，刻画最优解的结构特征，然后递归定义出最优解，用自底向上的方法计算出最优路径，最后根据计算出来的最优值信息，构造最优解。图下图3-2所示：
　　因此，基于动态规划的Viterbi算法的整体设计思路如下：
　　1、对于每一个语音状态要设置一个三元组作为记录：（prob，v_path，v_prob），这里声明的prob是从最初状态的到当前状态的所有路径的出现概率相加的结果，其中最优的路径为viterbi路径，v_path代表的就是viterbi路径，而v_prob代表的则是此路径出现的概率；
　　2、算法开始后，初始化一个Map集合，把每一种语音状态都映射进三元组中
　　3、设置三重for循环，计算从当前语音状态到下一阶段的过渡概率会出现什么变化，所有下一状态判断完之后，从集合中遍历找出最优结果，即出现概率最大的路径；
　　4、保留每一帧语音在某个状态的最优路径，输出结果。
　　4.总结
　　语音识别技术的核心是HMM技术（隐式马尔科夫模型），而本文主要基于语音识别技术的语音解码模块进行讨论，从其涉及技术、设计、实现进行全面描述，对离线解码模块中的特征提取、以及使用动态规划的Viterbi算法实现搜索最优序列进行了详细介绍。模块基本实现完成，但仍有很多值得提升和完善空间，今后可以使用更先进的算法进行优化。
　　参考文献
　　[1] 朱元涛.Android应用开发范例大全[M]. 清华大学出版社.2015.
　　[2] 郭霖. 第一行代码 Android [M]. 人民邮电出版社. 2014.
　　[3] 何红辉，关爱民.Android 源码设计模式解析与实战 [M]. 人民邮电出版社. 2015.
　　[4] Android Studio Applicati [M]. 进口原版图书.
　　[5] The Definitive Guide to Sqlite [M]. Apress.
　　[6] 李兴华.Android开发实战经典[M].清华大学出版社.2012.
　　[7] Android开发实战[M].清华大学出版社.2013.
　　[8] 赵卓君.Java语言程序设计高级教程[M].北京.清华大学出版社.2010.
　　[9] 朱少民.软件测试方法和技术（第2版）[M].北京.清华大学出版社.2010.
　　[10] UML和模式应用[M].机械工业出版社.2006.
　　[11] 钱乐秋、赵文耘、牛军钰.软件工程[M].北京.清华大学出版社.2007.
　　[12] 王晓东.计算机算法设计与分析[M].电子工业出版社.2012.

其他文献

对位芳纶纤维与莫代尔纤维混纺纱的生产实践

[摘要]对位芳纶1414纤维是对位芳香族聚酰胺纤维（聚对苯二甲酰对苯二胺），是一种合成的高分子材料，具有优良的物理机械性能、热稳定性、阻燃性、电绝缘性和耐辐射性，但吸湿性差和价格昂贵，市场应用面窄。莫代尔纤维最大的特点是透气吸湿性好，对人体具有良好的亲和力，容易染色，较易纺织加工，但力学性能差。将对位芳纶1414纤维与莫代尔纤维混纺，不仅可弥补芳纶1414纤维可纺性差的缺点，同时可获得较高的混纺

期刊

论“CL”网架板结构在建筑工程中的应用

[摘要]本文以CL网架板结构为研究对象，针对其在建筑工程施工中的具体应用进行几点分析。全文共有四个部分，分别从CL建筑结构概述、特点、内容以及具体应用展开论述。　　[关键词]CL网架板结构；建筑工程；应用　　中图分类号：TV523 文献标识码：AO 文章编号：1009-914X（2016）16-0165-01　　引言　　城市建设规模不断扩大，城市建筑用地却在不断缩小，为了能够满足城市居民居住需求

期刊

基于辐射能信号的锅炉燃烧控制系统

[摘要]针对锅炉燃烧控制系统中，从燃料量到主蒸汽压力通道的非线性、大滞后特性，本文利用现有的炉膛三维温度场可视化研究成果，引入炉膛辐射能信号作为中间被调量构成串级控制系统。将上述策略应用到燃烧控制系统中的汽压控制子系统，仿真试验结果验证了其可行性。　　[关键词]辐射能信号，模糊控制，遗传算法，燃烧控制系统　　中图分类号：TP273 文献标识码：AO 文章编号：1009-914X（2016）16-

期刊

自动化在线检测仪表在污水处理的应用

[摘要]自动化在线检测仪表的有效使用，可以增强污水处理的实际作用，实现生态文明建设的更多发展目标，推动我国和谐社会的快速发展。基于此，本文将对自动化在线检测仪表在蒲白矿务局白水社区白水矿小区污水处理站污水处理的应用进行必要地探讨，从不同的方面阐述了合理使用这种检测仪表对于污水处理的重要性。　　[关键词]自动化；在线检测仪表；污水处理　　中图分类号：TU992.3 文献标识码：AO 文章编号：10

期刊

信息化条件下弹药保障浅探

[摘要]我军正处于加速中国特色军事变革，推进信息化条件下的战略转型，同样弹药保障转型面临着新的机遇和挑战。如何适应新的战争需要提高弹药保障能力，提高部队弹药保障能力，成为摆在我们面前的一道难题。本文从弹药保障的突出问题出发，对新形势下如何提高弹药保障能力进行了研究与探讨，并对如何提高信息化条件下战争中弹药保障能力提供了对策措施。　　[关键词]信息化；弹药保障；专业队伍　　中图分类号：TJ410

期刊

浅谈信息化建设过程中场域管理

[摘要]本文结合信息化建设过程中的项目管理与场域管理进行深入分析，在项目管理过程中如何通过认知、营造和实践方法来打造高绩效项目场域，从而全方位提升企业信息化团队在信息化建设过程中项目管理能力。　　[关键词]项目管理、实施管理、维度分析、塑造行为　　中图分类号：TU71 文献标识码：A 文章编号：1009-914X（2016）16-0164-01　　伴随着企业互联网的快速发展，国家对信息化产业逐步

期刊

存珠营子玛瑙矿地质特征及成因探讨

[摘要]存珠营子玛瑙矿位于中国中新生代大陆边缘活动带，属环太平洋构造域一部分。该区内火山活动强烈，广泛发育有中生代火山岩，火山活动为玛瑙成矿提供了物质来源。　　[关键词]存珠营子火山活动火山岩玛瑙　　中图分类号：P619.28 文献标识码：AO 文章编号：1009-914X（2016）16-0162-01　　1 区域地质特征　　1.1 区域地质背景　　存珠营子大地构造位置为中朝准地台北缘，

期刊

水利工程中的防渗施工技术

[摘要]水利工程是人们在生活及生产中根据实际需要而对水资源的运行方式进行改造的工程，对于减缓洪涝灾害的危害程度及对水资源的合理利用都起到了非常重要的作用。目前我国的水利工程有大、中、小型之分，但在这些水利工程中很大一部分在运行一定时间内都会有坝体和坝基渗漏的病害发生，从而导致水利工程的正常运行受到影响，同时下游人民群众的生命和财产安全也受到一定的威胁。所以针对于渗漏病害的发生，应及时采取科学有效

期刊

市政工程中软土地基常用的处理技术

[摘要]市政工程的数目不断增加，软土地基处理技术在市政工程中被广泛运用，虽然软土地基处理技术有了很大的提高，但是仍然存在很多问题。本文结合现场考察的实际情况分析市政工程中软土地基常用的处理技术，从而更好的确保软土地基的质量　　[关键词]市政工程；软土地基；处理　　中图分类号：U41 文献标识码：A 文章编号：1009-914X（2016）16-0177-01　　1 前言　　随着工程建筑技术的不断

期刊

冻结法在武汉地铁联络通道施工中的应用

[摘要]结合武汉地铁2号线北延伸宏图大道站-常青车辆段站区间联络通道及泵站工程，介绍了冻结法在地铁联络通道施工中的施工技术及双线同时冻结、同时开挖在联络通道施工中的应用，对今后隧道中心间距较大联络通道冻结法施工有一定的指导意义。　　[关键词]联络通道冻结法双面同时开挖　　中图分类号：U231.3 文献标识码：A 文章编号：1009-914X（2016）16-0175-01　　1 工程概况　　

期刊

基于Sphinx4的语音解码模块设计

与本文相关的学术论文