声纹识别的应用研究与实现

来源 :厦门大学 | 被引量 : 0次 | 上传用户:aywjx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
声纹识别属于生物认证技术的一种,相比于其他生物认证技术具有认证方式简单、设备成本低等特点。虽然深度学习在声纹识别问题上取得了巨大的成功,但由于其巨大的存储与计算开销,阻碍了它在资源有限环境中的应用。本文主要研究资源有限下声纹识别的工程化应用问题。首先,针对仅有少量注册人数据可利用的声纹识别问题,本文设计一个一对余(One vs Rest,OvR)神经网络模型用于身份认证。在一个文本相关的自建数据集和文本无关的AISHELL-160数据集上的实验结果显示,该模型在闭集声纹识别上平均误分率分别为0.13%和0.8625%,达到实用化水平。在开集声纹识别上,对于文本相关数据集,其平均拒真率和平均认假率分别为0.53%和1.77%,仍具有实用价值。其次,针对有非注册人数据可利用的声纹识别问题,本文设计了一个基于时延神经网络(Time Delay NruralNetwork,TDNN)的识别系统。先用非注册人数据训练一个TDNN模型,再用该模型作为特征提取器提取注册用户的声纹特征,输入OvR后端模型进行分类识别。在AISHELL-16和AISHELL-160两个数据集上的结果显示,相比于仅有注册人数据的识别结果,TDNN+OvR在AISHELL-16上的误分率、拒真率和认假率分别降低了 0.25%,0.375%和3.25%,在AISHELL-160上分别降低0.475%、0.825%和3.2375%,识别效果得到明显提高。进一步地,我们将TDNN+OvR与TDNN后端采用全连接神经网络、K近邻、余弦距离等分类器的方法进行了实验对比,四种方法在AISHELL-160数据集上的等错误率分别为4.4375%,5.375%,6.875%和6.25%,表明本文采用的TDNN和OvR神经网络结合的识别系统具有明显的优势。最后,本文建立了一个实际的声纹识别认证系统,整个识别系统同时包含了录音、注册以及实时测试的功能,用户只需点击软件界面上的相应按钮即可完成目的操作,具有友好、易操作的用户交互界面。
其他文献
137Cs是核设施的裂变产物之一,半衰期为30.17年,裂变产额为5.9%,被认为是生物学上最危险的放射性核素之一。铯的生物学行为与钾类似,通过竞争K+通道进入食物链威胁人体健康,并对生态环境造成污染。目前用于修复环境中放射性核素铯污染的常规方法效果欠佳且成本高,微生物修复技术以成本低、效果明显且不易产生二次污染的优点进入国内外研究学者的视野。本研究从海洋沉积物中富集筛选出一株耐受高浓度铯的海洋细
科技的进步给我们带来了更美好的生活,而现实生活的需求又使科技有了更强大的发展动力。人工智能已经体现在了生活的方方面面,给人们带来了前所未有的交互式体验。人体行为识别是跟生活联系非常紧密的一项研究,也是人工智能一个重要的领域。对获取的人体完整3D视觉数据进行深入分析是机器学习和模式识别领域的前沿研究主题。行为识别的两个重要研究方向,一个是如何提取更具鲁棒性区别性的特征,另一个是对获取的特征如何更好的
单帧图像超分辨率重建旨在从一张低分辨率图像重建出相应的高分辨率图像,要求在增加像素点的同时提升清晰度。图像超分在高清电视、历史资料恢复、压缩传输、安防监控、医疗诊断等方面有着广泛的应用。伴随着卷积神经网络的兴起以及计算资源性能的提升,深度图像超分不管是在客观指标,还是视觉效果方面都取得了空前的研究进展,并且在很大程度上超越了传统重建算法。与此同时,如何在图像主观效果与客观指标之间保持平衡,如何设计
形状记忆合金经过长足发展,现今投入使用的已包括Ni-Ti基、Cu基和Fe基形状记忆合金。其中,Cu基形状记忆合金因其低成本和较好的切削加工性而备受关注。传统凝固法制备的Cu基合金一般为多晶结构,不可避免具有多晶脆性,后续的固溶处理还可能会获得更粗大的晶粒,这就进一步加剧了合金的脆性。目前改善多晶脆性的方法通常为细化晶粒、降低母相有序度和制备单晶。本文以制备单晶为目的,通过在Cu-Al-Mn基合金中
盾蚧是红树林重要害虫类群之一,在福建、广西等地红树林中危害严重。目前,现有的红树林盾蚧研究主要集中于盾蚧种类鉴定、种群动态及生活史等方面,对红树林盾蚧的种类调查、发生规律和危害研究较少。因此对本论文以秋茄红树林为主要研究对象,综合运用野外调查方法、分子标记技术、植物生理学及转录组学分析方法等,详细地研究秋茄红树林内的盾蚧种类、数量动态规律及其影响因素,对红树植物的危害等,全面探究红树林中的盾蚧危害
目的:评价PPI联合使用SSRI对咽喉反流性疾病(laryngopharyngeal reflux disease,LPRD)合并抑郁(depression)症状患者的疗效是否优于单纯抑酸治疗。方法:对耳鼻喉科门诊可疑LPRD合并抑郁症状的患者采用反流症状指数量表(reflux symptom index,RSI)、反流体征评分量表(reflux finding score)以及抑郁自评量表(se
本文针对多源融合导航定位系统提出完好性监测技术,完好性反映的是系统的稳定性和安全性问题。定位技术发展到现在,面对室内室外各种复杂的定位场景,仅靠某种单一的定位技术已经远不能满足人们的定位需求。目前,将多项定位技术的优劣势进行互补,形成多源融合导航定位技术,已成为定位领域的热门研究主题,同时多源融合导航定位技术也已经广泛应用于各大领域。在多项定位技术中,视觉定位技术因其精度高、成本低、不受信号强弱影
深度卷积神经网络(CNNs)的强大性能是依赖于其庞大的参数量和计算量而产生的,但是这两个特点反而成为了限制卷积神经网络的进一步发展的瓶颈。近年来,越来越多的研究关注如何对卷积神经网络进行压缩与加速。目前的神经网络压缩与加速方法大多采用直观的压缩方案,没有去理解神经网络的内部原理,挖掘冗余性存在的原因和位置。因此,本文提出压缩神经网络前应先分析其内部的工作原理和机制,并基于神经网络的可解释部分来进行
随着人类命运共同体理念逐渐深入人心和“一带一路”倡议的稳步推进,小语种教学在教育对外开放中的作用愈加不可或缺。现实需求催生了中学小语种教育的蓬勃发展和教师队伍的不断壮大,然而在现实中,非师范出身的中学小语种教师入职后往往需要面对身份定位不清晰、以及由此导致的专业发展路径模糊等诸多困境。因此,中学小语种教师身份认同研究对小语种教师的专业发展和小语种教育的优质发展具有重要现实意义。本研究以中学小语种教
芳香化合物是一类重要的化工产品,广泛应用于生产农药、医药、香料和聚合物材料等。为减轻芳香化合物生产对石油资源的依赖,利用生物质基平台化合物制备芳香化合物逐渐成为研究热点,这对于减少环境污染、保护能源安全具有重要意义。本论文以生物质基呋喃衍生物为原料,通过化学催化转化手段,开展呋喃衍生物经Diels-Alder和脱水反应制备可再生芳香化合物的研究。首先,利用SAPO-34分子筛催化2,5-二甲基呋喃