与文本无关的说话人识别技术研究

来源 :河北科技大学 | 被引量 : 3次 | 上传用户:fa1192573654
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于语音本身的特点和现今社会的需要,说话人识别技术的研究有很大的学术价值和应用价值。但目前存在的说话人识别技术与人们的期望还有很大的差距,将该技术很好地应用于现实生活中还存在很多困难。本文主要对与文本无关的说话人识别技术进行研究,重点对特征参数选取、匹配算法和判决方法进行研究,尤其对开集部分的说话人提出了解决方案,从而进一步确定适用于本文系统的语音库和系统反馈信息。在特征参数选取方面,对基频、共振峰和Mel倒谱系数进行了详细的研究和分析,确定将Mel倒谱系数作为说话人识别的特征参数,将基频和共振峰作为对说话人分类的依据,识别时先判断待识别人属于哪个子集,然后再进行匹配计算。实验结果表明,与不分类方法比较,不仅缩短了识别时间,而且提高了识别率。在匹配计算方面,采用欧氏距离进行计算,用该算法进行说话人识别,在建模时不必对说话人进行严格的训练,只需要从用于建模的语音中提取相应的特征参数存储即可。在确定判决方法方面,采用确定范围而不是只指定一个人作为最后识别结果的方法,所以本文输出结果是三个而不是一个,这样可以有效减少错误说话人被接受或正确说话人被拒绝的错误。应用于公安司法领域也可以很大程度上减小侦查的范围。本文对开集部分也进行了研究,将待识别语音先选取不同的两段进行匹配计算,然后再对该语音进行识别的相应计算,将自身语音得到的结果和其他结果比较,得出该说话人是否存在语音库中。
其他文献
数字荧光示波器(DPO,Digital Phosphor Oscilloscope)是第三代示波器,结合了模拟实时示波器和数字存储示波器的优点。它不仅具有实时捕获和荧光显示的模拟示波器特性,还具有波形
随着Web服务技术以及服务组合技术的迅速发展,具有相同或者相似功能的服务数量逐渐增多,利用QoS进行服务选择已经成为Web服务组合的关键技术。然而,如何能够高效的选择和组合众
目前在人机交互中鲁棒性不高的主要因素之一在很大程度上是人必须适应计算机,而计算机没有适应环境的能力,如光照、视角不满足计算机的要求时就会丢失部分信息,或增加了判决的不
在现代医疗卫生行业中,数字信息系统起着越来越重要的作用。医学图像的数字化减少了传统胶片的使用和管理,提高了图像的检索效率,方便了医学图像在远程诊断、教学以及科研中
21世纪,是信息化的社会,信息化社会带给人们更方便快捷的生活方式。图像作为人类感知世界、了解世界的视觉根基,是人类获取信号、表达情感和传递沟通的重要手段,二维码如QR,D
随着网络多媒体技术、通信技术和传输技术的快速发展,信息安全成为人们不容忽视的问题。图像作为一种有效的信息载体,由于其生动形象等特点被广泛应用于各领域,因此图像安全
要继承和弘扬我国人民在长期实践中培育和形成的传统美德,坚持马克思主义道德观、坚持社会主义道德观,在去粗取精、去伪存真的基础上,坚持古为今用、推陈出新,努力实现中华传
随着无线通信技术的飞速发展以及国防信息化建设的日益推进,电磁仿真分析对民用、军用领域中各类产品设计的指导意义愈加明显。电磁仿真技术的核心是电磁场的数值计算,本文以
在基于属性的加密系统(Attribute-Based Encryption, ABE)中用户不再是用唯一的ID或是证书来标识,取而代之的是他所对应的一组属性。与门,或门以及门限的引入极大的增强了访
铁路交通和铁路运输极大的便利了人们的出行和物资的运输。近些年来,铁路的迅猛发展,极大的沟通了城乡文化和物资交流,并促进了工农业生产的发展。进入21世纪,铁路运输在当代