基于自注意力的端到端方言语音识别模型

来源 :信号处理 | 被引量 : 0次 | 上传用户:liyumei1221
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
方言语音识别是方言保护的核心环节.传统的方言语音识别模型缺乏考虑方言语音中特定方言音素的重要性,同时缺少多种语音特征提取及融合,导致方言语音识别性能不高.本文提出的端到端方言语音识别模型充分发挥了残差网络(Residual Network)和 Bi-LSTM(Bi-directional Long Short-Term Memory)分别在语音帧内和帧间特征提取的优势,并利用多头自注意力机制有效提取不同方言中特定方言音素信息构成语音发音底层特征,利用该方言发音底层特征进行方言语音识别.在基准赣方言和客家方言两种方言语音语料库上的实验结果表明本文提出的方言语音识别模型显著优于现有基准模型,通过对注意力机制的可视化进一步分析了模型取得性能提升的根本原因.
其他文献
深化消防执法改革以来,消防产品市场准入限制放宽,行业主管部门机构改革重组,各类因素导致过渡期消防产品存在市场准入门槛降低、流通渠道多元化、产品质量合格率下降等诸多问题.通过对消防产品质量相关数据进行分析,剖析问题原因,提出深化消防执法改革后以分段监管模式推动消防产品质量综合治理的方法,为解决现阶段消防产品监督执法存在的突出问题,有效改善不良市场竞争行为,净化消防产品市场提供参考.
以粤港澳大湾区为研究对象,分析作为国家重要战略布局的大湾区消防救援工作的现状、存在的问题和面临的挑战.在城市群消防规划缺失的情况下,探索超大城市群层面消防规划重构编制,落实国家重大战略的纵向贯穿,以创新突破为基准,力求提出具前瞻性、可操作性的发展建设路径,进而有力推动大湾区消防救援事业发展.
对我国近年来建筑结构在火灾中发生倒塌的部分典型案例及长时间火灾下未倒塌的案例进行了总结,介绍了倒塌监测及预警的流程及关键技术,总结了近年来国内外针对建筑结构火灾下的倒塌进行监测及预警的相关研究情况.分析表明,利用结构变形、温度、振动等特征参数进行倒塌监测及预警的相关研究较多,但仍处于理论研究阶段,距离实际应用仍存在很大距离;面向消防救援实战需求,便捷、易用、精准、有效的系统和多方法联用的倒塌监测及预警方法是值得关注的研究方向.
当前,随着城市发展进程加快、产业结构快速转型,浙南某市的消防安全工作在监管力量、基础设施、救援力量、数字管控等方面逐渐出现“四个不相适应”问题.结合工作实际,建议从强化顶层设计、健全治理体系、推进创新驱动、夯实基层基础、加强队伍建设等五大方面入手,推动该市消防工作再上新台阶.
针对基于时频掩蔽的分离方法在多声源场景下的分离效果不佳的问题,论文提出一种利用概率混合模型的理想比率掩蔽多声源分离方法.首先,利用冯·米塞斯分布对时频点处方位角估计进行拟合以及拉普拉斯分布对归一化声压梯度信号向量进行拟合,由此建立概率混合模型.其次,利用期望最大化算法对模型参数进行求解,估计各声源对应的理想比率掩蔽.最后,利用估计出的理想比率掩蔽,从麦克风采集信号中分离得到各声源信号.实验结果表明,与现有基于时频掩蔽的多声源分离方法相比,论文所提方法在欠定场景下具有更好的分离效果.
端到端语音识别模型无需发音词典进行训练,可以大幅降低开发新语种语音识别系统的负担.本文利用端到端模型的这一优势,建立了一种语种无关的端到端多语种语音识别系统.该模型使用基于字符的建模方法进行训练,同时构建多语种输出符号集,使其包括所有目标语言中出现的字符.模型训练生成单一模型,其网络参数为所有语种共享.在OLR竞赛提供的10个语种数据集上,相较于单语种语音识别系统,本文提出的多语种语音识别系统在所有语言上的表现都更加优秀.
语音转换技术在保持语义内容不变的前提下将源说话人的语音音色转换为目标说话人.目前,蒙古语语音转换面临语料匮乏、蒙古语字词在发音上韵律变化丰富等问题.针对这些问题,本文提出一种基于细粒度韵律建模和条件CycleGAN的非平行蒙古语语音转换方法.该方法首先使用连续小波变换提取细粒度的语音韵律特征,然后向CycleGAN中加入说话人向量构建条件CycleGAN,最后使用条件CycleGAN得到源说话人和目标说话人之间稳定的韵律转换.实验结果表明,该方法与传统CycleGAN语音转换方法相比能够有效提升蒙古语语音
传统语音处理方式是把语音样本分割成固定长度的片段,但这种语音样本的切割会导致语音情感分类准确性下降.本文引入循环填充法处理可变长度的log-Mel谱图,该方法能够更好的利用时间动态信息,同时可以减少填充的无效数据对模型参数学习的干扰.由于人类的情感只能在语音中某些特定的时刻出现,为了寻找关键情感特征,本文构建了基于高效通道注意力机制的语音情感识别模型,其中高效通道注意力机制能够计算通道图的重要性,有选择的强调通道图,改进特定情感的表达.本文在交互式情感二元动作捕捉(IEMOCAP)数据库上进行相关实验.在
2020年,世界卫生组织宣布COVID-19疫情为大流行病.为了实现COVID-19快速地、可靠地检测,本研究通过语音信号分析技术来寻找感染COVID-19的语音信号特征,利用咳嗽声片段和语音片段对是否感染CO-VID-19做出自动判断.在INTERSPEECH 2021 ComParE竞赛提供的相关数据集和baseline的基础上,本文首先利用语音端点检测技术对数据集进行增广,其次在特征集中加入语音质量特征,使相关baseline结果得到了提升,证明了语音质量特征在对COVID-19自动语音检测任务上的
维吾尔语是黏着语,词汇量较多,容易出现未登录词问题并且属于低资源语言,导致维吾尔语的端到端语音识别模型性能较低.针对上述问题,该文提出了基于多任务学习的端到端维吾尔语语音识别模型,在编码器层使用Conformer并与链接时序分类(CTC)相连接,通过BPE-dropout方法形成鲁棒性更强的子词,以子词和字作为建模单元,同时进行多任务训练和解码.实验结果分析发现,子词作为建模单元能有效解决未登录词问题,多任务学习模型能在低资源环境下较充分利用数据,学习到丰富的时序语音特征信息,进一步提升模型的识别性能.在