针对端到端语音识别的鲁棒语音对抗样本生成

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:nkxrb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
智能语音作为一种新型的人机交流方式已经得到广泛的应用。最近的研究表明,基于深度神经网络的语音识别系统容易受到对抗样本的攻击而出错,研究这些攻击方法不仅有助于发现深度学习模型训练过程中可能存在的潜在问题,而且可以推进深度学习理论方面的研究。现有的语音攻击方法中,白盒攻击方面主要依靠基于优化的算法,黑盒攻击方面主要依靠遗传算法,然而这些方法不仅需要大量的计算资源,而且攻击效果不够理想。例如,一是这些方法因破坏了语音信号的时序依赖性容易被最新的防御机制检测到。二是这些方法通常会在原始语音中加入明显的噪声,导致对抗样本易被人察觉。针对上述问题,本文进行了深入的讨论和研究,主要内容分为以下四个部分:针对语音识别预处理步骤不可微的问题,本文设计了一种通过张量计算来实现的语音特征提取模块。该模块避免了以往方法从对抗特征转回语音波形的有损过程,使得端到端生成语音对抗样本成为可能,从而提高了对抗样本的听觉质量。针对语音对抗样本在防御机制下鲁棒性差的问题,本文提出了一种鲁棒的迭代比例剪切算法(IPC)。基于对时序依赖性的考虑,本文设计了一个带有对扰动比例剪切效果的目标损失函数。对扰动比例剪切通过维持语音信号的频域特征提升了对抗样本的听觉质量。同时因保留了时序依赖性,使得对抗样本可以攻破TD防御,即增强了对抗样本在TD防御下的鲁棒性。针对引入噪声过多导致对抗样本听觉质量不佳,易被用户发觉的问题,本文提出一种鲁棒的心理声学隐藏算法(Psy-hiding)。该算法利用心理声学掩蔽效应的知识,将对抗扰动藏匿在人耳感知阈值以下达到对抗噪声不被察觉的效果,大大提高了语音对抗样本的听觉质量。该算法与基于优化的对抗样本生成框架相适应,为后续语音攻击算法设计提供新思路。最后,本文从定性和定量的角度,通过攻击成功率、主客观样本质量评估、防御机制下的鲁棒性实验以及可视化比较来验证提出的IPC和Psy-hiding算法的有效性。在大型语音数据集Libri Speech上针对当前表现最佳的Wav2Letter V2语音识别模型展开了攻击验证。在实验结果中,本文提出的两种方法攻击成功率均可以达到100%。在对100个样本测试的ABX测试中,均有95%的对抗样本不会被区分出来。在50人的AB测试中,均有90%以上的实验者听不出对抗样本中的异样。当使用最新的防御机制对IPC对抗样本进行分类,分类器的AUC值在0.5至0.7范围内,展示了防御机制对IPC对抗样本有较差的分类效果,即IPC方法面对最新防御机制鲁棒性强。同时本文也揭示了Wav2Letter V2模型存在被攻击的风险。
其他文献
激光直写技术作为一种新兴的加工技术,在当前微电子产业中已取得实质性应用。微电子有源器件需要微纳导电图形来支撑其主要的光电功能,而制造其中微纳导电图形的技术至关重要。普通金属与导电聚合物是导电图形中的主要材料,其传统的微纳加工需要多种设备,工艺非常繁琐。而飞秒激光能使材料在激光焦点处发生光物理或光化学反应,具备一步实现各种高分辨率图形的能力。如果将飞秒激光与导电图形的微纳制造相结合,则能够极大简化传
研究目的:已知早期接触对羟基苯甲酸酯(parabens,PBs)可干扰体内激素合成过程并影响男性生殖发育,但关于PBs暴露与女性生殖健康之间关系的流行病学研究甚少。本研究旨在探索PBs暴露与女性卵巢储备功能之间的相关性。研究方法:本研究为一项横断面研究,以就诊于同济医院生殖中心的139名女性作为研究对象。采集患者单点尿液标本以检测尿液中PBs的浓度。使用个人护理用品自我报告的问卷信息作为评价患者暴
燃煤电厂烟气中汞的排放已经严重威胁到生态环境和人类的健康。单质汞(Hg~0)的物理稳定性和化学惰性使得Hg~0处理成为烟气中汞脱除的难点。目前脱除Hg~0应用较为广泛的就是活性炭喷射技术(ACI),但是应用过程中存在活性炭(AC)脱汞能力低,操作成本高等问题。并且使用后的吸附剂依旧会残留在飞灰中,不仅降低飞灰使用价值,还有可能导致汞的再次释放。考虑到AC优越的物理结构特性,如果能加入磁性使其实现分
学位
Nav1.5属于电压门控离子通道(voltage-gate sodium channel,VGSC)家族成员。Nav1.5对于心脏节律的维持具有至关重要的作用。心脏钠离子通道Nav1.5的(?)亚基,由SCN5A基因编码。遗传学研究发现,SCN5A/Nav1.5发生突变会导致各种类型的心律失常与心源性猝死,包括长QT综合征、Brugada综合征、房颤、心脏传导阻滞、病态窦房结综合征,扩张性心肌病等
第一部分长链非编码RNA MZF1-AS1与神经母细胞瘤进展密切相关目的:寻找与人神经母细胞瘤进展相关长链非编码RNA(lnc RNA),评估其在神经母细胞瘤细胞系中的表达和定位,并阐明MZF1-AS1在神经母细胞瘤中的作用。方法:通过解析GEO公共数据库,寻找与人神经母细胞瘤患者临床指征相关的长链非编码RNA,并检测lnc RNA在神经母细胞瘤中的表达水平与生存的相关性。同时,应用实时定量PCR
在二代测序技术的推动下,宏基因组学的研究在广度和深度上都发生了巨大的变革,带来了宏基因组数据井喷式的增长,因此也给机器学习方法在该领域带来了极大的用武之地。人体肠道宏基因组数据具有小样本量、高维度、与宿主关系复杂的特点,在疾病相关的生物特征筛选以及构建疾病预测模型方面,存在以下问题:(1)对于受年龄、性别等因素影响较大的疾病如结直肠癌的宏基因组研究中,当前的特征筛选过程并没有考虑此类混淆因素的影响
随着5G技术的普及,无线通信技术将会更加深入的影响到人们的生活。天线,作为其中的关键部件,其电磁性能受到制造精度的限制,因此,利用智能制造技术对天线样件加工质量进行预测研究,实现天线加工的智能化生产对通信领域的发展具有重要意义。基于以上问题本文针对高频元件在精密铣削过程中的加工质量预测进行研究,主要内容如下:首先,基于高频元件的结构特点、材料特性以及加工特点对高频元件的加工尺寸误差进行了影响因素分
第一部分内质网应激介导的凋亡和自噬在PBDE-47致雌性大鼠发育神经毒性中的作用目的:2,2’,4,4’-四溴联苯醚(2,2’,4,4’-tetrabromodiphenylethe,PBDE-47)是毒性较强的多溴联苯醚(polybrominated diphenyl ethers,PBDEs)同系物之一,其所致发育神经毒性已引起了人们的关注,但其作用机制尚未完全阐明。本部分研究旨在明确内质网应
科学研究应坚持“四个面向”,其中面向人民生命健康的指导思想指出要把全民健康摆在优先发展的战略地位。因此,与“健康中国”相关的研究具有重大意义。超声在疾病治疗和诊断中发挥着重要作用,而超声医疗最核心的超声换能器普遍采用基于压电效应的电驱动器件,它存在复杂的电连接、电磁干扰等问题。最近,基于光声效应的光致超声换能器被广泛关注,它具有无电连接、抗电磁干扰等特点。光致超声换能器主要由光吸收材料和聚二甲基硅