增强与自适应联合的远场语音识别算法研究

来源 :太原理工大学 | 被引量 : 3次 | 上传用户:gdzsljw
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
远场语音识别在智能家居、办公环境、人形机器人、汽车和语音翻译等研究领域都有广泛应用,然而,由于远场环境中噪声混响等干扰,鲁棒又方便地识别远场语音仍然是一个挑战。本文以此为出发点,结合阵列信号处理及自适应技术的优点,对远场噪声混响语音识别做进一步研究。结合仿真及实际实验,验证了所提算法的有效性。本文完成的工作有:1.首先简单介绍了远场环境下仿真模型-IMAGE模型,其次介绍远场语音识别基本理论,包括预处理、语音特征参数提取、声学模型、语言模型、解码和搜索算法。在Ubuntu系统上安装了波束形成工具箱BTK及语音识别引擎Pocketsphinx。阐述了远场语音识别系统的基本流程。2.采用声达时间差(time difference of arrival,TDOA)算法对声源进行定位,利用定位结果调整延迟求和波束形成(Delay&Sum Beamforming,DSBF)的权重,减小非期望方向上的干扰,提高语音质量。在此基础上,采用最小方差无失真响应(Minimum Variance Distortionless Response,MVDR)波束形成和超指向波束形成(Super-directive Beamforming,SDBF)减小空间相干噪声,用Zelinski、McCowan两种后置滤波方法进一步减小残留噪声。介绍了仿真实验配置,设置反射系数为0.6,在不同噪声下对所提算法进行实验,结果表明波束形成能明显减小语音信号干扰,提高系统识别率,后置滤波能进一步提高系统鲁棒性。3.采用最大似然线性回归(Maximum Likelihood Linear Regression,MLLR)和最大后验概率(Maximum A Posteriori,MAP)两种方法调整声学模型参数,得到适用于远场环境的新的声学模型。用仿真实验验证了两种算法的性能及MAP的渐进性。在实际会议室环境中采集远场语音并验证了MAP算法的实用性。4.为进一步增强系统鲁棒性,提出使用语音增强和MAP联合算法进行远场语音识别。将传统的语音识别系统作为基线系统,比较了单个算法系统、联合算法系统、基线系统之间的性能。结果表明,在噪声混响环境下,联合算法有较好的鲁棒性,其系统性能优于单个算法系统,且它们的性能都优于基线系统。
其他文献
研究α-萘乙酸(NAA)50、100、200mg·L^-13个浓度处理对铭月和黄丽2种多肉植物叶插生根的影响。试验结果表明:NAA3个浓度处理对铭月和黄丽两种多肉植物叶插生根的影响不同,NA
上海是全国最早出现冰厂的城市,在清朝末年冰已经广泛用于水产品的保鲜。上海地区冰厂的发展,带动了冰鲜水产的发展。20世纪30年代到1949年上海解放,冰厂的发展经历了蓬勃发
目的 探讨肝脏保存再灌注中Bcl-2 mRNA、BaxmRNA表达、肝细胞凋亡以及FK506的作用。 方法 建立大鼠离体肝脏保存再灌注模型,采用逆转录—多聚酶链反应(RT-PCR)和细胞凋亡原
以尤金·奈达的"功能对等"理论为指导,运用实例论证了文言文中"之"字的英译处理方法。针对该字的不同用法提出了相应的翻译方法,以便最终达到精确、生动地传递中国传统文化的
学困生问题一直是教育教学研究中的一个热点问题,新课程改革以来,许多一线教师和专家学者开始关注和研究对学困生数学能力的培养。学困生的数学能力普遍低下,特别是数学运算
本文探讨了影视后期制作的概况、影视后期制作的主要因素、影视后期特效制作的概况及其技术发展前景。通过评析,可以清楚看出特效制作对于影视艺术的重要性。
2009年10月23日我国开启创业板市场,专为创业型企业、中小企业、高科技产业企业等具有高成长性的、拥有创新能力的企业提供融资平台。众所周知,这一市场强调企业的创新能力,
南朝是一个重情的时代,南朝梁诗人何逊,创作了大量的歌咏友情主题的诗歌。在何逊的众多友人中,范云对何逊既有赏识又有援引,应当是他人生路上的重要的朋友,因此范云是何逊诗
乳腺小叶增生是育龄期女性常见的乳腺增生性疾病。西医主要采用激素治疗。中医治疗从整体观念出发,辨证施治,多从肝论治,以疏肝理气、化痰散结、活血祛瘀为治疗原则,并兼顾脾
本文以当前初中生在数学学习中出现的厌学情况为研究背景,发觉要想转变当前初中生的数学学习情况,提高他们对数学学科的兴趣是必不可少的。那么将数学魔术作为一种教学手段来