面向嵌入式计算平台的自动语音识别关键技术研究

来源 :湖南大学 | 被引量 : 17次 | 上传用户:huhu029
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在未来几十年,先进通信将迅速改变人们的生活和工作方式,随时、随地使用一定范围内的设备进行实时通信和实时数据处理将逐渐成为现实,基于嵌入式计算平台的自动语音识别(Automatic Speech Recognition, ASR)是关键技术之一。许多在实验室表现优异的ASR系统,一旦应用到复杂的实际噪声环境就马上变得不稳定;另一方面,鲁棒性高的识别系统往往依赖于高计算量,只适合运行于PC平台甚至高性能服务器。如何降低ASR系统的计算复杂度使之适合嵌入式平台,并提高其在复杂噪声环境下的鲁棒性,是嵌入式ASR研究的重点和难点。目前,嵌入式ASR应用系统多为分布式结构,即在目标设备上装载语音识别前端,将复杂的语音识别后端放置在服务器。本文着重研究基于嵌入式计算平台的自动语音识别前端关键技术。作为ASR的第一步,有效的语音端点检测可减少系统后续处理时间,排除无声段噪声干扰,提高语音识别准确率。本文提出了两种语音端点检测新方法。其一,将时域对数能量特征与频域谱熵特征相结合,提出基于对数能量谱熵的端点检测方法,由于其计算简单可应用于中低端嵌入式平台;其二,针对抗噪性能优良但计算稍复杂的非线性语音特征端点检测,提出基于样本熵的语音端点检测方法,有望应用于高端嵌入式平台。仿真实验表明,两种新方法在低信噪比环境下,比传统的能量法、谱熵法、能量谱熵法、对数能量法等都具有更好的鲁棒性,能更好地区分语音和噪声,检测准确率更高。语音增强是从含有噪声的语音信号中尽可能消除噪声,还原出纯净语音信号。完全消噪是不可能的,实际系统中的语音增强以抑制背景噪声、保护和提高感知语音质量为目的。基于短时谱估计的语音增强算法由于计算简单最适宜嵌入式平台,但有时会造成语音失真。本文分析比较了几种典型短时谱估计算法计算复杂度,针对其中乘加计算量最小的RL算法进行改进,引入人耳掩蔽效应,提出基于Bark域的RL改进算法,并进一步降低了计算量。实验表明,改进后的算法能显著抑制噪声,并有更好的语音质量,有效减少了语音失真。语音特征提取是ASR前端的最后一个环节也是最重要的环节,特征提取质量对识别结果起决定性作用。美尔频率倒谱系数(Mel-Frequency Cepstral Coefficient, MFCC)以其良好的性能成为ASR系统标准前端,本文针对标准MFCC提取过程进行了两点改进:一是调整了汉明窗系数,提高窗函数性能;二是将子带频谱质心(Subband Spectrum Centroid, SSC)加入MFCC过程。传统语音特征提取利用了语音幅度信息却忽略了频谱信息,由于各频带频谱峰值位置受背景噪声影响相对较小,具有更好的鲁棒性,而SSC非常接近频谱中的峰值位置,本文将SCC引入MFCC,提出基于美尔子带频谱质心(Mel Subband Spectrum Centroid, MSSC)的语音特征提取新方法。HTK仿真实验表明,新汉明窗及MSSC语音特征提取新方法与传统MFCC法比较,低信噪比环境下的识别率平均提高了17.13%。将上述语音端点检测算法、语音增强算法和语音特征提取算法集成为一个ASR前端实验系统。本文选择ADI公司的多媒体高性能ADSP-BF533作为嵌入式平台,将该前端系统进行优化并成功移植,验证了其在嵌入式平台上实现的可行性。最后,将上述部分研究成果用于移动学习平台原型系统设计,并进一步研究了教学资源知识表示技术,提出了一种本体概念相似度计算新方法;研究了AMR-WB编码器优化技术,提出了一种快速固定码本搜索方法。该原型系统在中山读书郎公司的儿童早教机、学生掌上电脑和数码读书机系列产品中得到成功应用,产生了巨大的经济效益。产品开发的实践证明,本文研究成果可广泛应用于嵌入式计算平台。
其他文献
由于每个人拥有的生产要素在数量、质量等方面的差异,收入分配差距问题的存在便是社会发展的必然,而收入分配公平与否则关乎着社会的稳定与安全。个人所得税作为诸多税种当中
中国邮路问题是图论中的经典问题之一,得到了广泛的研究。该问题在货物配送、垃圾收集、邮件收发、扫雪车线路设计、VLSI电路设计等领域有着重要应用,因此吸引了众多学者去研
自主集群弹性战术网络项目是美空军实验室为无人机集群在激烈对抗环境下实现无人机之间协同的新型通信网络,计划在2022财年为自主集群提供组网能力。介绍了自主集群弹性战术
<正>在纪念五四运动100周年大会上,习近平总书记指出,一代人有一代人的长征,一代人有一代人的担当。100年来,一代代中国青年在对先进理论的学习中不断开辟着伟大的事业。青年
高速磁悬浮列车运行速度高,在近轨道处的噪声不仅声级高,而且噪声作用时间短,使得声突发率高.研究了声突发率的计算方法,并对上海浦东高速磁悬浮列车以432km/h行驶时的噪声进
随着教育的深化改革,史料的探究分析题占比在不断提升,因此史料教学在高中历史课堂上成为了重要的教学手段。通过对史料的研究与分析寻求高中历史学习的方式与方法,从中获取
目前,高职英语信息化教学中存在着严重的情感互动的缺失,而这种情感缺失进而也影响着教学活动的开展和教学效率的提高。只有重视情感因素以及师生情感交互的重要性,探讨有针
木质纤维廉价而且来源丰富,可以用于生产燃料乙醇,六碳糖(葡萄糖)和五碳糖(木糖)是木质纤维素中含量最多的两种组分,但是在工业上广泛应用的产乙醇微生物——酿酒酵母不能发
本学位论文基于动态连续时间金融理论,研究人寿保险的需求问题,考察个体的消费、保险购买和金融资产配置间的关系。文章采用既定财富约束下效甩最大化的分析框架建立模型,运
褪黑素对海马CA1神经元延迟外向整流钾电流的作用及其机制分析褪黑素(melatonin)是一种主要由脑内松果体合成和分泌的神经激素,离体和在体实验均已证实褪黑素具有强大的神经