提取耳蜗熵值的语音可懂度客观评测算法研究

来源 :太原理工大学 | 被引量 : 0次 | 上传用户:cqhy2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音质量和语音可懂度是语音增强领域的一个分支,语音质量评测算法的研究注重背景噪声和其他干扰的抑制过程,采用听觉方法或认识技术提高通信的可靠性和系统的鲁棒性。而语音可懂度的研究对象是语音信号本身,区别于语音质量,从另一个角度对语音信号进行增强。语音质量和语音可懂度尽管都属于语音增强的分支,但是对于听者接收的语音来说,语音质量是指语音的清晰程度,即其他干扰对语音的影响;而语音可懂度是指听众能够对语音的理解程度。语音质量的高低与语音可懂度的高低并不成正比。例如,即便在较高的背景噪声条件下,听者有时也能听懂语音表达的意思,有时,在安静的场合反而未必能听懂。因此,本研究从语音可懂度的角度,采用提取语音耳蜗熵值的方法对语音进行分段并提取耳蜗熵值,再利用归一化协方差算法和语音混响能量比算法计算语音的可懂度客观评测分数,通过四种相关度分析方法分别评测主观分数和客观分数的相关性,从而对语音可懂度进行客观评测。本研究的主要内容如下:1.对语音信号进行分段处理,提取耳蜗熵值。根据一定的阈值将耳蜗熵值分为高熵值和低熵值。2.采用归一化协方差算法和提取语音混响调制能量比算法。输入语音分别为高熵值段语音和低熵值段语音。两种可懂度算法的区别是后者摆脱了对纯净语音的依赖性,更适用于日常生活中,例如人工耳蜗的植入或者助的听器佩戴。研究结果表明,采用提取耳蜗熵值之后高熵值段语音的可懂度更高些,说明高熵值段语音比低熵值段语音携带有更多的语音信息。并且采用归一化协方差算法和语音混响调制能量比算法的高熵值段语音可懂度主客观相关系数都达到0.85左右,二者相差不大。但归一化协方差算法具有理想化的特点,现实生活中的语音不可能完全为纯净语音,而语音混响调制能量比算法具有无需纯净语音输入的特点,因而更具有实用性。
其他文献
本论文来源于“分布式、智能化虚拟训练系统”课题。该训练系统对三维仿真视景的真实性和实时性都有很高的要求。而传统的仿真引擎Vega,Vtree存在着效率低,缺乏灵活性等缺点,
随着网络技术的发展,电视台作为一个设备先进、管理复杂的工作单位,使用先进的技术对日常工作进行管理和统计,是十分有必要的。基于现有的网络系统,在专业的软件支持下,可以实现这
我国煤矿大多集中在中部及西北地区,这些地区由于气候干燥、水资源相对缺乏,导致出现沙尘暴的几率大,空气中的粉尘浓度高。尤其在露天储煤场周围,所产生的无组织粉尘污染具有面积
半导体制造技术的蓬勃发展,带动了集成电路的快速前进,为了满足由低频到高频的需求,出现了微波集成电路。随之而来的问题是,在保证电路尺寸、复杂度不变的情况下,使功率附加
H.264是ITU-T(国际电信联盟)在H.263++基础上制定的新的低码率视频编码标准。H.264由于采用了4×4的整型DCT运算,先进的帧内预测,先进熵编码CAVLc和CABAC,可选的基于1/4(1/8)象
期刊
说话人识别始于20世纪30年代,从20世纪60年代开始日益成为当今的一个研究热点。说话人识别具有广泛的应用前景,如保安、公安司法、军事、财经和信息服务等领域。正因为说话人
伴随着世界各国车辆数量的急剧增加,交通状况日益受到人们的重视。如何有效地进行交通管理,越来越成为世界各国政府和有关部门所关注的焦点。针对此问题,各种智能交通管理系
期刊
期刊