基于声学参数和高层信息的说话人识别

来源 :安徽大学 | 被引量 : 0次 | 上传用户:chen20080310
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音技术是2000年至2010年间信息技术领域的十大重要科技发展技术之一。语音中所包含的最重要的信息是说话人所要表达的语义信息,同时语音也间接传递了说话者的个人身份信息,比如有关语种、心情、性别、年龄等,说话人识别技术在电话金融交易、网络安全、多媒体数据检索等领域获得了广泛的应用。现有的说话人识别技术主要基于底层的声学参数信息特征,发展基于高层信息及其与声学参数融合的识别技术是未来的发展方向,但目前仍存在一定的技术难点。本文对此进行了尝试,从声学参数、韵律参数以及字词搭配等层面对说话人识别问题进行了深入研究,主要研究工作和成果如下:  1、在基于声学参数的说话人识别研究上,本文基于传统的GMM-UBM系统和GLDS-SVM系统,将训练和测试的每段语音都通过自适应的方法得到一个混合高斯模型,计算混合高斯模型之间的马氏距离。通过说话人模型、测试模型、UBM模型之间的三角形三条边和三个夹角来识别说话人,将三条边和三个角作为6维的特征矢量与GLDS的超矢量结合,在采用支持向量机作为识别模型的情况下,相对于传统的GMM-UBM系统,能够取得等错误率16%的相对下降。  2、在基于韵律参数的说话人识别研究上,本文采用勒让德多项式的方法对能量包络和基频包络进行展开,把韵律特征形成一个13维的韵律参数,然后采用GMM-SVM的方法进行识别。进一步,采用得分域的融合互补,将基于韵律参数的说话人识别系统和基于声学参数的系统进行融合,融合后的等错误率相对声学参数的系统下降25%。  3、在基于说话人字词搭配的说话人识别研究上,本文采用音素搭配的n-gram在一句话中出现的概率来作为支持向量机的输入特征参数,为了解决数据稀疏性问题,本文采用KPCA的方法在降维的同时提高特征参数的区分性,在采用三个语种并行识别的情况下,能够做到的等错误率为17.58%,如果和声学参数以及韵律参数的系统进行融合,最终能够取得6.1%的等错误率。  4、本文在传统的声学参数研究的基础上,针对不太成熟的韵律参数、字词搭配的关系进行了研究,从实验的结果来看,各个层面的语音参数都对说话人识别的性能具有帮助,并且具有比较高的性能互补作用。
其他文献
为了解决总线对计算机系统的发展所带来的问题,满足外部设备对总线的带宽要求,Intel提出了第三代总线技术PCI Express(以下简称PCIE)。由于PCIE总线在设备互联数据交互方面具
野生动物的空间利用主要表现为对栖息地范围内环境资源的利用模式和活动格局,影响着种群之间的基因交流和种群生存发展。长尾斑羚(Naemorhedus caudatus)为东北亚特有物种,在IUCN世界物种红色名录中被列为近危级,同时被列为中国哺乳类红色名录濒危级物种。内蒙古赛罕乌拉自然保护区内的长尾斑羚种群栖息地处于被周边村镇隔离孤立状态,是研究隔离种群独立进化的良好对象,本研究基于非损伤性采样分子标
12月18日,在贵州省物业管理发展25周年纪念活动大会上,贵州天能物业管理有限公司(以下简称“天能物业”)无疑成为关注的焦点,包揽“贵州省物业服务企业综合实力30强”“贵州
期刊
软X射线、极紫外线的聚焦在光谱学、无掩模光刻、极紫外线(EUV)望远镜成像等领域有许多应用。在软X射线和EUV波段,各种材料的折射率均接近或者等于1,这就导致了常规的通过折
草鱼出血病(Grasscarphemorrhagedisease)是由草鱼呼肠孤病毒(Grasscarpreovirus,GCRV)引起的一种急性传染病。这种病发病快、流行广、死亡率高,主要感染当年和一龄的草鱼(Cteno
发展宽带雷达和超宽带雷达可以获得目标更多、更丰富的信息,而目标的雷达散射截面随入射波频率及入射角度的改变而改变,所以研究目标的宽频带和宽角度电磁散射特性具有十分重
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
期刊
被认为是“美国绘画的凯旋”的抽象表现主义,早在20世纪60年代就被波普运动所取代,在中国,这一类型的实践与其他前卫实践一起始于七八十年代之交,不过,在整个拼盘里,它激起的
USB接口借助其通用性和使用方便性,成为越来越多的手持设备乃至较大型外接设备的标准接口。以USB为传输接口的密钥系统也在安全系统领域普及,但是单纯把加密数据保存在USB密
本文通过对荣华二采区10
期刊