【摘 要】
:
声纹识别也被称之为说话人识别,是采用智能系统识别语音中说话人身份信息的重要智能语音技术之一。智能系统能够通过获取语音中的说话人信息,排除其他干扰信息,自动完成说话人身份信息的识别。随着通信、互联网以及人工智能技术的迅速发展,人人沟通、人机交互过程中所产生的语音数据呈现爆发式增长。如何在海量语音数据中快速定位说话人身份,实现说话人的确认、检索和管理,是智能语音在实际应用中特别是信息安全领域所面临的重
论文部分内容阅读
声纹识别也被称之为说话人识别,是采用智能系统识别语音中说话人身份信息的重要智能语音技术之一。智能系统能够通过获取语音中的说话人信息,排除其他干扰信息,自动完成说话人身份信息的识别。随着通信、互联网以及人工智能技术的迅速发展,人人沟通、人机交互过程中所产生的语音数据呈现爆发式增长。如何在海量语音数据中快速定位说话人身份,实现说话人的确认、检索和管理,是智能语音在实际应用中特别是信息安全领域所面临的重大难题。因此,面向信息安全的说话人识别技术成为当前智能语音技术研究的一个重要方向。本文旨在构建面向信息安全的说话人识别系统,主要研究了两个应用场景下的两大任务。一是海量音视频后台监控场景下的文本无关说话人辨认。由于其输入是海量的音视频数据,系统首先需要针对语音数据进行说话人分离,将不同说话人的语音分离开;然后分别对每个人的语音进行假音检测,检测出伪造语音;最后对真音进行说话人辨认。二是用户配合的身份认证场景下的说话人确认。鉴于该场景只包含单一说话人的语音,因此系统不需要进行说话人分离,只需要进行假音检测以及说话人确认。近年来随着深度学习技术的发展,说话人识别技术已经有了长足进步,但是面向信息安全领域应用需求,当前的说话人识别技术仍面临以下待解决的问题。主要包括:1)说话人分离中,重叠音说话人分离不准确;2)假音检测中,未知语音生成系统的伪造语音攻击;3)文本无关说话人辨认中,注册与测试信道场景不匹配;4)文本相关说话人确认中,注册测试语音互信息利用不充分等。本文针对这些问题开展相关的研究工作,具体的研究包括:首先,针对说话人分离中多人同时说话的重叠语音段的分离难题,本文提出一种基于语音分离引导的说话人分离方法。该方法融合了语音分离和传统说话人分离,利用二者的互补特性,有效缓解了传统说话人分离系统无法对多人同时说话的重叠语音进行分离的难题,降低了说话人分离错误。其次,针对未知语音合成系统和音色转换系统伪造语音难以被检测的问题,本文提出一种基于时域波形建模的端到端假音检测方法。该方法可以充分利用卷积神经网络的学习能力,提取出高区分性的隐层特征,并且通过优化的对比学习方法,显著提高模型检测未知伪造方法的泛化能力。接着,针对文本无关说话人辨认系统实际应用中,注册与测试语音场景信道不匹配问题,本文提出一种基于对抗学习的文本无关说话人辨认方法。基于信道对抗训练,该方法将不同信道场景信道的数据投影到同一子空间上获得信道无关的说话人表征,以此来解决信道失配问题。同时,该方法可以有效提升跨信道、跨场景的说话人辨认效果。最后,针对文本相关说话人确认系统实际应用中,注册与测试语音交互信息利用不足的问题,本文提出一种基于动态说话人表征的文本相关说话人确认方法。该方法在针对不同确认目标时,动态生成交互式的说话人表征,可以有效提升说话人确认的效果。基于上述研究工作,本文设计实现了一套面向信息安全领域的说话人识别系统,并将其作为核心功能集成到面向信息安全领域的智能语音分析平台之中,最终在百万说话人语音库上达到了 85%以上的Top20召回率,有效支撑了智能客服、智慧公安等领域的信息安全应用。
其他文献
随着社会经济的飞速发展和全球人口的急剧增长,各个领域对能源的需求日益增长,寻求清洁的可再生能源已经成为人类社会的基本共识。海洋中蕴藏着丰富的可再生资源,而波浪能以其能流密度高和储量大等特点成为优质的可再生能源之一。鸭式波能转化装置因其形状和运动特性类似于鸭子的运动而得名,并且以其较高的一级波浪能转化效率在众多波浪能转化装置中受到广泛关注。由于大多数前人的数值研究成果均是基于线性势流模型,但考虑到鸭
细胞周期是细胞增殖和个体发育的基础。细胞周期的不同时相受到不同的细胞周期素蛋白(Cyclin)和相应的细胞周期素依赖的蛋白激酶(CDK)的调控。Cyclin B-CDK1是调控有丝分裂进入和完成的关键因子。有丝分裂期的主要功能是把间期复制的遗传物质均等地分配到两个子代细胞中。有丝分裂期染色体分离出错会导致子代细胞形成非整倍体。非整倍体和肿瘤的发生发展密切相关,约有90%以上的实体瘤细胞都是非整倍体
相干多普勒测风激光雷达是一种主动激光遥感设备,具有体积小,动态探测距离远,时空分辨率高,精度高等特点,被广泛应用于大气风场遥感领域。本文基于深度信号功率谱分析,反演多大气参数,进一步扩展激光雷达的功能和应用。这些大气多参数在重力波、云、降水、湍流、大气污染、危险天气的探测和研究中发挥了重大作用。本论文研究了大气多参数探测多普勒激光雷达反演技术及应用,论文的主要工作如下:回顾了国内外从事测风激光雷达
唇语识别是应用图形、图像、视频处理技术,通过采集目标人讲话视频,分析按时间序列化的唇部形状信息,识别出说话人讲话内容的技术。由于不同人的唇形变化的差异性和语言的复杂性,相对于语音识、图像识别,唇形变化特征更难提取,唇语识别是一项研究难度较大应用面较窄的领域。但在提高嘈杂环境中语音识别的准确性,弥补身份安全认证中人脸识别安全性不足,辅助聋哑人进行语言交流等领域,唇语识别具有极佳的应用前景,是一个值得
密封滚动轴承(带密封单元的滚动轴承)广泛应用于旋转机械中,可以简化主机结构、方便安装和维护以及消除周围环境对滚动轴承的污染。密封单元失效是造成密封滚动轴承润滑剂泄漏的主要原因,研究表明有超过80%轴承的提前失效源自轴承润滑问题,因此建立滚动轴承密封单元的密封性能分析模型,开展密封性能研究,对滚动轴承密封单元的设计和应用具有理论指导意义和重要的工程应用价值。本文针对滚动轴承中的静密封单元和动密封单元
目的 总结部分型及过渡型房室间隔缺损患者的临床特征,探讨基于真实世界角度分析术后早期随访结果的可行性。方法 回顾性收集广东省人民医院2018年1月1日—2020年7月12日期间,诊断为部分型及过渡型房室间隔缺损患者临床资料,历次返院检查作为真实世界随访结果,单因素Cox风险比例模型分析术后房室瓣中度以上反流等情况。最终93例患者纳入分析,72例部分型及21例过渡型房室间隔缺损。男38例、女55例,
语音作为一种便携的信息交流工具,在日常生活中被广泛使用。近年来,数字信号处理和语音通信技术得到迅速发展。随着人们对语音通信质量要求的不断提高,通信设备的功能需求也逐渐增长。总体上讲,语音通信的质量主要取决于语音分离(SS)的程度。SS在现实生活中有许多潜在的应用,如通信、助听器、自动语音识别、医疗、多媒体、辅助生活系统、类人机器人、鸡尾酒会问题等。在这些应用场景中,可靠的SS技术对于确保整体系统的
随着科技发展和全球化进程的深入,认识高水平科技人才专长的本质和特征成为一个极具时代性的研究课题。正好随着上世纪60年代信息技术和人工智能技术的发展,引发了包括现象学、科技哲学和科学知识社会学等领域对人类专家专长的广泛探讨,并把对包括科学家在内的专家的技能、知识与意见的哲学讨论带到了知识的原初状态,孕育出一种认识人类专长本质和特征的具身认识论。其中美国原加州伯克利分校的休伯特·德雷福斯(Dreyfu