远程语音通话实时说话人确认系统研究与实现

来源 :厦门大学 | 被引量 : 0次 | 上传用户:missyouangle
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
说话人识别技术是一种生物认证技术,其可按不同的标准分成说话人辨认和说话人确认、文本相关和文本无关说话人识别等。在实用环境下,电话网络、通信网络的文本无关说话人确认系统已成为当前说话人识别研究的重点,在现阶段已开始出现基于这两个网络的实用实时说话人确认系统。本文的工作是围绕构建一个基于网络语音通话的实时说话人确认系统展开的,主要研究了实时语音端点检测、UBM背景模型训练、说话人模型的建立以及最终的说话人确认的判决等。本文分析了实时说话人确认系统在现阶段的发展和应用,提出了本文系统开发的背景和意义。本文改进传统的双门限语音端点检测算法,在求短时平均能量和短时平均过零率的阈值时,是对整个语音信号分别求能量值、过零率,再对帧能量值、过零率进行排序再求解阈值,改变了传统的基于经验值或者语音的前几秒来计算阈值的方法。经实验验证,该方法应用在实时的说话人确认系统中取得了很好的效果。按照GMM-UBM模型的说话人确认系统的流程,本文设计开发了基于网络远程语音通话的实时说话人确认系统,且在端点检测算法的作用下系统能达到较高的实时性。整个系统包括UBM训练子系统、说话人模型训练子系统、说话人确认子系统。最终针对20个人的测试语音数据,设计了一个实验方案使实验测试的结果更加可信。实验结果也显示了本系统可以达到了良好的效果。
其他文献
目标跟踪是无线传感器网络中研究的一个重点领域,传统的研究方法通常将目标作为一个点来跟踪,但是对于分布密集的目标群来说,这种假设并不合适。为此,在综合分析国内外大量文
本文在Agent技术的基础上,以政策为线索建立了一种新型的政策驱动的Agent行为模型。全文将从政策驱动的单个Agent的行为模型、政策驱动的多Agent协作模型和政策驱动的多Agent
针对遥感影像数据,如生物物理参数产品、大型工程评价区生物环境变化监测产品、国家级自然保护区植物优势群落监测、国家级自然保护区生境破碎状况预警产品、土壤遥感应用产品、区域生态环境灾害遥感应用等进行生产、加工、处理时,第一步要对遥感影像数据进行分割目标,并通过目标识别来提取所需要的信息,第二步是将分割目标结果进行分析,并进行目标识别处理等,这个过程称之为连通域标记。那么,为实现遥感影像数据进行连通域并
随着嵌入式系统与网络的日益结合,如何保证嵌入式系统间重要数据的安全通信,成为嵌入式领域中重要的研究方向。由于SSL协议为TCP层提供安全服务,能有效防止长期困扰人们的许
在网络和多媒体技术飞速发展的今天,数字作品的知识产权保护和内容完整性认证成为人们亟待解决的迫切问题。传统的密码技术由于自身的缺陷已经不能满足人们的需要,在此背景下
网络交易的日益风行,使传统的版权保护手段和数据安全技术面临极大的挑战和某些难以克服的困难。数字水印技术正是通过特定的算法将版权信息嵌入到多媒体数据中,且不影响原媒
学位
随着经济的发展和城市化进程的加快,城市人口的增长、机动车拥有量的增加、城市形态的变化以及社会活动规模的增加都给大、中城市的交通及其管理系统增加了越来越重的负荷,交通
人脸识别技术因其具有重要的科学意义和实用价值,在近几年得到了研究者的高度重视,成为当前模式识别和人工智能领域的一个研究热点。人脸识别一般分为人脸检测、特征抽取和模
随着Web2.0时代的到来,充满交互性的社区问答,作为一种以用户为中心的新型问答方式,由于其答案的通常都是经过了人工筛选,具有较高的质量,因而相比传统问答系统的准确性更高,