背景噪声下中文语音质量的客观评价研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:Wangjun33
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现代通信设备可能暴露在各种噪声环境中,有效量化终端的噪声抑制效果尤为重要。针对这一问题,ITU-T P.835建议书提出一种主观测试方法,从语音质量S-MOS、残留噪声质量N-MOS、整体抑噪性能G-MOS三个维度进行评价。在客观评价方面,国际上存在ETSI EG 202 396-3、ETSI TS 103 106及ETSI TS 103 281三种评价方法,但其对于中文语音的适用性有待考量。因此,本文的研究目的是分析背景噪声环境下各客观评价方法对于中文语音的性能表现。本文从以下四方面展开研究:第一,分为样本数据库和客观评价模型两部分对三种客观评价方法进行梳理,分析各模型的应用场景,并重点分析其算法差异。第二,搭建实验环境,解决实验室场景下的背景噪声模拟和通信网络模拟问题,为背景噪声下中文语音质量的评价提供采样基础。第三,构建基于中文语音的样本数据库。首先,选用合适的中文音源,在多样化的测试条件下录制终端传输的中文语音样本,得到差异化的客观测试结果。其次,设计合理的主观实验方案,确保主观评测的结果有效可靠。最终,32名大众听众参与主观实验,共收集13824个分项投票,其中涵盖48种测试条件,每种测试条件下分三个维度各获取96个MOS投票结果。第四,通过曲线拟合的映射函数对客观测试结果做差异补偿,通过计算各测试条件下主观测试结果的置信区间考量其不确定性,并应用统计指标评估各客观模型的性能表现。实验结果表明,对于背景噪声下中文语音质量的客观评价,ETSI TS103 281模型A具有最优的准确性和相关性。
其他文献
随着外骨骼设计技术的逐渐成熟,外骨骼不仅用于瘫痪等疾病的康复治疗,也逐渐应用于提高工人的工作能力,增加人体的力量和耐力等方面。因此对于外骨骼控制的精准性和鲁棒性是更高的挑战。本文研究的目的是基于表面肌电数据的采集和特征分析,提出动作意图识别和关节角度预测算法,实现骨关节运动的精确预测,为外骨骼的运动控制提供基础数据。首先根据下肢骨骼肌肉系统的运动特性建立下肢运动学实验测量模型,进行6种单关节运动和
随着移动终端设备不断增长,无线通信业务对频谱资源的需求在持续扩大,导致全球范围内逐渐出现频谱接入拥塞的情况。同时,据美国联邦通信委员会显示,3GHz以下频段的利用率在15%-85%之间且呈现参差不齐的现象。高效灵活的频谱接入是解决“频谱接入拥塞”和“频谱利用率低”等问题的关键技术之一。为此,本文将研究无线通信网络中的频谱接入技术,其中包括移动通信网络下的随机接入过程和认知无线电网络下的动态频谱接入
随着5G的落地及物联网的快速发展和应用,移动端设备及这些设备产生的数据都在呈爆发式的增长。一些新型的应用,如AR、VR、无人驾驶、工业互联网、远程医疗、智能家居等都对响应时延及数据安全性提出了新的要求。在此背景下边缘计算成为解决这些问题的关键技术之一,受到了越来越广泛的研究和关注。在如无人驾驶等地域范围较广的边缘计算应用场景中,边缘层是以服务器集群的形式存在,而非单个服务器节点。在移动端设备数量庞
1教材分析我说课的内容是:人民教育出版社八年级下册第七单元《生物圈中生命的延续和发展》第二章《生物的遗传和变异》的第四节《人的性别遗传》,下面我将从教材分析、教学目标、学情分析、教学设计、说板书、教学反思等几个方面说课。本节课是在学习了基因控制生物性状、基因在亲子代间的传递和基因的显隐性的基础上,继续学习人的性别遗传,性别遗传是遗传知识的扩展,也为后面学习生物的变异做了个铺垫,同
期刊
艺术家朱迪思·塞尔比·朗(Judith Selby Lang)和理查德·朗(Richard Lang),美国艺术家和设计师。他们在海滩坚守数十年,将废弃的塑料变为美丽的艺术品,呼唤人们爱护环境、保护海洋。赏析一片、两片叶子。三个、四个瓶子。五块、六块小碎片。七件、八件小玩具。挤一挤,变变变,种出绿油油的森林,画出深深浅浅的颜料,铺出白白的石子路,做出一盘香甜可口的午餐!废塑料,变变变,还可以
期刊
合成孔径雷达(Synthetic Aperture Radar,SAR)拥有全天时全天候的侦察能力。在国防与军事领域,合成孔径雷达主要的工作是对军事目标的侦察、监控和预警。飞机作为一种具有重要战略意义的军事目标,一直以来都是SAR图像目标检测工作的核心内容之一。近年来SAR成像技术不断地发展与突破,已经出现了亚米级分辨率SAR图像,这给SAR图像目标检测研究带来了新的方向,高分辨SAR图像目标检测
人类在复杂的、多个说话人同时说话的环境下,具有追踪和分辨任意一个目标说话人语音的能力。通过算法建立听觉模型,使智能机器具有相似能力的问题被称为鸡尾酒会问题。语音分离是解决鸡尾酒会问题的重要技术之一。近年来,随着深度学习技术的发展,和深度学习结合的语音分离技术也开始被开发出来并取得了显著的进步。然而,大部分的研究仅仅利用了真实场景下的音频信息,其他模态的信息并未被有效的利用。本文的研究从音视频模态融
现代军事战场中,雷达越来越扮演着重要的角色,其性能的优劣往往很大程度上能够左右战争的走势。实际工程应用中,随着雷达技术的不断进步,人们对雷达的分辨率的提出了更高的要求,如今,雷达信号的覆盖带宽逐步发展到GHz级别。为了实现对超宽带雷达信号的全概率截获,宽带数字接收机必须将产生的高速数据流进行实时处理,但是超宽带雷达信号采样率高,数据量大,传统的宽带数字射频存储方式,并不能很好的适应超宽带雷达信号存
随着大规模接入和高速率服务需求的日益增长,存在天然优势的多播传输已得到研究者们的重点关注,但其广泛应用往往因为频谱利用率仍不能满足日益提升的传输要求而陷入瓶颈。而近年来以非正交多址(Non-orthogonal Multiple Access,NOMA)接入以及层分复用(Layered-division Multiplexing,LDM)为代表的非正交复用技术可以进一步增加用户接入并提升频谱利用率
太赫兹通信和探测系统是当前电子领域的研究热点之一。频率选择表面是太赫兹系统中的常用关键部件,其中特性可调的频率选择表面因其灵活性而受到特别关注。传统电磁材料和器件在太赫兹频段的可调谐性受到限制,而新兴石墨烯材料在太赫兹频段却表现出良好的电磁调控能力。因此,近年来国内外学者对石墨烯频率选择表面进行了深入研究,主要集中在其可调谐性能上。本文在此基础上,研究了具有高频率选择性的可调石墨烯频率选择表面,主