远场语音识别算法和三维声线追踪算法研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:forlichking
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文章分为两个部分,第一部分为远场语音识别算法研究。目前,语音识别技术已获得了很大的发展,并且进入了实用化的阶段。这些语音识别系统对近场语音有较高识别率,但对远场语音识别率会明显下降。这是因为远场语音识别面临着更大的噪声干扰和房间混响的影响这两个难题。本文对远场语音的特点进行了分析,对现有的解决远场语音识别问题的技术进行了讨论。在此基础上,提出了一种提高语音特征参数鲁棒性的方法。 倒谱系数零均值化(CMN)算法是一种简单有效的抑制卷积噪声的方法,对减小房间混响的影响有一定的效果。但是它存在两个问题,其一是减去噪声的同时也减去了语音特征参数的均值,另外它对每一帧都作相同的处理。本文对该算法进行了改进,CMN改进算法有如下优点:可以跟踪含噪语音信号信噪比的变化,动态调节被减项的权值;具有更大的灵活性和合理性。然后,用HTK(HMMYoolkit)建立识别系统进行实验,实验结果表明:在一般房间内,用远场语音训练、远场语音识别时,采用改进算法,与采用原算法相比,识别率提高了18.3%;用近场语音训练、远场语音识别时,采用改进算法,与采用原算法相比,识别率提高了15.1%。另外,在混响强烈的混响室内,识别率也可提高3.5%。 第二部分为三维声线追踪算法研究。在对二维声线追踪的三角形前方展开法进行分析的基础上,提出一种直接在三维空间中求取声路径的高速声线追踪算法——正三棱锥前向伸展法。该算法在追踪的每一步,都向声线前方伸展出一个小正三棱锥,在其内部作线性近似,然后在该三维线性声速场内找出声线所在的平面,通过坐标变换,再于该平面内运用改进的三角形展开法,求得声线轨迹。该算法避免了传统算法中将三维空间分割成无数固定的小区域进行计算的复杂性,同时又充分继承和发挥了原有二维算法的优点。最后,用计算机模拟Luneburg透镜,对该算法进行了验证。实验数据显示该算法有较高的运算速度和精确度,比传统三维算法更加简洁可靠,可望应用于三维超声层析像重建的散射修正。
其他文献
近年来,在超声医学中,由于高强度聚焦超声(HIFU)的快速发展,人们更多的关注无损测量组织温度,准确地确定超声灼烧的范围和程度。无损测量灼烧部分的温度和实时的反映生物组织中的温
电致化学发光是电化学和化学发光结合的产物,它兼具化学发光和电化学方法的优点,不仅具有高的灵敏度和宽的线性范围,而且可以通过电压可以对反应时间和空间进行灵活控制。正是以
激光惯性约束核聚变(ICF)的“快点火”方式自1994年提出以来,因为其放宽了对驱动压缩对称性和点火能量的要求迅速成为ICF研究的热点之一。但是由于开展时间短,“快点火”机制中
本文包括两部分研究内容。 一、乳状液的声学特性研究。利用宽带声谱法和有限振幅声波插入取代法对乳液状食品——牛奶的声学参量:声速、声衰减及非线性声参量B/A进行了测量
本文的研究分为两部分:一是竹材力学和电学损耗的研究;二是高介电材料CaCuTiO的介电性能和非线性光学系数的研究。 第一部分:竹子是重要的森林资源之一,中国是世界上竹子资源
充分发挥理念文化关键作用  学校理念文化是学校全体成员共有和共享的信念,它可以将学校组织的内部力量统一于共同的指导思想,汇聚到同一个方向,提升为学校特有的文化,从而对学校的教育教学行为产生潜移默化的影响。平原一中在总结学校八十余年办学历史经验的基础上,结合新时代国家和社会对学校教育的要求,提炼出平原一中核心理念:  (一)校训:崇德、博学 、求实 、创新  学高为师,身正为范。德是灵魂,学是根本。
氢键团簇的研究一直是一个研究热点。作为一种重要的具有方向性的分子间弱相互作用,氢键在物理、化学和生物等研究领域都具有着非常重要的作用。在能量方面,氢键远远弱于化学键
高温超导混频器是利用高温超导Josephson结良好的高频性能和高度的非线性效应来实现混频的。高温超导Josephson结谐波混频器具有许多独特的优点:灵敏度和谐波次数高、所需的本
最近,Pettini等人进一步发展了Krylov动力学的微分几何理论,利用几何和拓扑中的概念来研究高维哈密顿系统的混沌和相变,发现系统的混沌不仅起源于负曲率,正曲率的波动引发参数不
量子输运性质是凝聚态物理学中一个非常重要的研究方向。近年来,随着微加工技术的迅速发展,介观系统以及纳米结构中的量子效应备受人们的关注。介观环是介观系统中最早被研究的