一种新的说话人确认方法研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:luomlkm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
声纹识别是一项重要的生物认证技术,应用场景广泛。声纹识别的主流方法包括SVM, JFA和i - vector等,它们均以GMM-UBM为基础。除了搜集语料训练目标说话人模型,GMM-UBM方法还需要大量额外的语料进行得分规整,这是声纹识别技术实用化的屏障之一。而现有的端点检测方法一般以短时帧为单位进行,存在着语音切分粒度过细导致计算开销过大的问题。针对这两点不足,本文对说话人确认的流程进行新的探索,主要贡献如下:1.将传统的说话人确认的单数据点假设检验的方法转变为比较检测语音序列在目标说话人模型和测试模型上得分差异的序列测试,对于如何使用测试语音得到测试模型,进行了三方面的尝试,测试语音在UBM上自适应得到的测试模型,测试语音混合注册语音后再UBM上自适应得到测试模型,测试语音在目标说话人模型上自适应得到测试模型。其中以检测语音在目标说话人模型和测试语音在UBM上自适应得到测试模型上得分差异最为明显,探索了以下五种判决方法:得分对偏移量比对阈值、得分对偏移量TOP均值、得分对距离、得分对排序、模型参数区分等,其中以测试得分对偏移量的TOP均值的判决效果最好,其EER在基准方法上有了4.2%的提升。2.相对于传统端检方法以短时帧为处理单位,提出一种仿人类视觉感知的语音端点检测方法。首先提取具有完整文本信息的语音段包络,及其波形形态特征,再对特征聚类后的结果进行投票,去掉噪音段和静音段得到语音段。端检效果良好,VQVAD算法相对最高提升45%,使系统的EER平均下降1.7%,并且具有提取出的每一语音子段仅包含一个目标说话人的优势。3.在前述研究成果的基础上,进一步提出了一种新的说话人跟踪的技术框架。应用波形分段的方法对语音进行分段,使得每个声音段只包含一个说话人,然后对每个声音段进行说话人确认,降低了说话人分割处理的复杂度,加快了检测的速度,使用传统说话人确认方法在MASC合成的数据集上漏检率和错误接收率为18%,而新型说话人确认方法也取得了28%的结果,效果基本令人满意。
其他文献
随着计算机技术的发展和互联网应用的深入,各种恶意代码(计算机病毒、网络蠕虫等)对系统安全造成了严重的威胁。网络蠕虫的传播可能占用被感染主机的大量系统资源,影响目标系
CAD(计算机辅助设计)和CAE(计算机辅助工程分析)无缝集成是工程人员在产品生命周期管理中迫切希望解决的问题。其中,为降低后续网格生成和仿真分析运算的复杂度,在模型网格化
随着计算机网络的深入应用,计算机终端与网络安全面临的问题仍然是信息安全处理技术。目前,Windows作为使用最广泛的终端系统,对计算机上的敏感信息的保护比较薄弱。Windows
三维城市的建设和应用,已经成为信息技术发展的必然趋势,虚拟城市环境的模拟也是“数字城市”建设的重要组成部分。虚拟城市的构建需要大量的模拟城市地物景观的三维模型数据
三维地震勘探已成为当今的油气勘探开发的主要技术。利用三维数据场的可视化技术显示三维地震数据,可以提高油气勘探的效率和成功率。本文主要研究了三维地震数据场的基于纹
量子密码学是建立在量子计算基础上,是量子力学与密码通信相结合的一门新兴学科。目前,量子密码学的研究引起了人们的广泛兴趣,并且在理论和实践方面都取得了重要的进展。本
AVS(Audio Video coding Standard),由中国音视频专家组研制开发,是中国第一个具有自主知识产权的国家音视频编码标准。该标准适用于高分辨率数字广播、高密度DVD播放器、流
本文提出了分层的分布式防火墙模型,它采用了与机构组织层次相同的层次结构来组织整个分布式防火墙,使之前分布式防火墙模型中的任一主机结点均可以扩展为一个小的分布式防火
随着机械制造业的发展,振动时效技术越来越被广泛应用起来。它来源于当工件加工出来后,其内部会存在一种内应力,这种内应力对工件本身是有害的,它会使工件发生塑性变形、降低工件
近年来,无线网络发展迅速,应用日益广泛,无线宽带接入互联网成为下一代互联网的一个发展方向。然而,同有线网络相比,无线网络在性能和服务质量方面还有很大差距,其中提供高性能的无