基于深度编解码器的语音识别

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:jovewu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着深度学习理论的发展和计算设备算力的提高,端到端的语音识别在各类语音识别方法中占据了主要地位。端到端方法能够直接建立语音特征序列和输出文本之间的映射关系,不再需要帧级别的对齐标注,在提高识别准确率的同时进一步简化了建模流程。本文针对端到端语音识别模型体积大、计算复杂度高等问题,提出了基于Transformer结构的深度编解码网络,在保证较高识别准确率的同时大幅降低模型的参数量和计算复杂度,便于模型的轻量化部署。本文的主要工作如下:1.设计了基于“局部—全局”融合注意力机制的Transformer编码器网络。通过在局部密集合成注意力中引入可学习的参数化掩膜函数,提出了基于自适应掩膜的局部注意力机制,动态学习最优的局部注意力作用范围,完成语音信号短时局部特征的提取;通过研究全局自注意力机制和自适应掩膜局部注意力机制在不同拓扑结构下对模型识别准确率的影响,提出了最优的“局部—全局”级联拓扑结构的融合注意力机制;将提出的融合注意力机制替换Transformer编码器网络中的自注意力机制,得到改进的编码器网络。2.提出了基于分层分组线性变换的解码器网络。通过使用不同规模的分组前馈网络,建立了基于分层分组线性变换的轻量级“扩张缩放”单元;采用逐块缩放策略,在Transformer解码器各网络块嵌入不同参数配置下的“扩张缩放”单元,得到深度和宽度逐渐增加的解码器网络;将“局部—全局”融合注意力机制的Transformer编码器网络和基于分层分组线性变换的解码器网络进行结合,得到了改进的轻量化Transformer深度编解码器网络。本文提出的改进Transformer编码器网络在AISHELL-1中文普通话数据集上达到了5.65%的字错误率;改进的轻量化Transformer深度编解码器网络在AISHELL-1数据集和TED-LIUM2英文数据集上分别以19.9M和19.6M的参数量达到了5.99%和11.06%的错误率,优于其它对比方法。
其他文献
多智能体系统领导跟随编队控制问题是多智能体系统的一个重要研究领域,它是指以一个或者多个智能体作为领导者进行领航,其余的智能体作为跟随者追踪领导者的运动轨迹,并且达到期望的编队形状。当前领导跟随编队控制问题研究已取得很多成果,但仍有许多问题需要进一步研究。基于实际环境的复杂性,通常很难得到智能体状态的确切信息,并且实际中通常需要系统在有效时间内达到预期的位置。基于这些问题,本文运用图论,矩阵理论,控
学位
目前国内外研究开发的外骨骼机器人大多数是欠自由度的助力辅助机器人。该类机器人不仅需要穿戴者借助拐杖等辅助物来保持身体的平衡,也不适用于上肢失能或半失能的高位瘫痪病人。为了帮助高位瘫痪的残疾人能够正常生活,研究具有自平衡功能的外骨骼机器人是未来的趋势。本文以自平衡外骨骼机器人Auto LEE-II为研究对象,针对自平衡外骨骼机器人平台的零力矩点(ZMP,Zero-Moment Point)不准确的问
学位
目标检测算法是计算机视觉领域中的分支之一,它利用计算机程序来实现对行人、车辆、路牌等目标的自动辨识和检测,在现代生活中有广泛的应用,是研究者们关注的重点。然而,目前的目标检测算法多关注于检测的精度,倾向于使用模型复杂、参数量大、卷积程度深的卷积神经网络模型来进行检测。这样的目标检测模型不利于在实际应用中加载在手机、门禁等简单运算的硬件设备上。因此,基于多任务级联卷积神经网络等轻量化的快速目标检测模
学位
<正>坚持党对国有企业的领导,加强国有企业党建工作,是确保党委发挥领导作用和做优做大国有企业的重要前提。党的建设是一项细致的基础性工作,需久久为功。针对以往党建考核方式单一、考核约束乏力的情况,江苏农垦集团南通有限公司(以下简称“苏垦南通公司”)党委采用“六步法”创新党建考核“风向标”,优化完善党建工作考核指标体系,探索建立一套动态评价、
期刊
新修定的《中华人民共和国个人所得税法》于2019年1月正式全面实施,明确了企业需承担员工个人所得税代扣代缴工作的义务,研究探讨新个人所得税法下代扣代缴问题具有非常重要的现实意义。本文阐述新个人所得税法的调整内容,然后分析有关新个人所得税法下的代扣代缴问题,指出新《个人所得税法》下企业完善汇缴清算的途径。
期刊
随着M2M(Machine to Machine)应用需求的增加,IPv6(Internet Protocol version 6)无线传感器网络技术得以快速发展。基于IPv6的M2M网络由于通信设备资源受限面临诸多挑战。RPL作为低功耗设备的标准路由协议受到极大关注。虽然RPL满足低功耗有损网络的应用需求,但难以为传感器设备之间的点对点路由提供高效的路由支持。当前一些研究增强了RPL的点对点路由
学位
近年来,随着现代通信技术的飞速发展,无线网络系统对各类射频器件的性能需求逐步提高。在现代高集成的无线射频通信系统中,带通滤波器和天线作为前端设备的关键微波器件,要求其必须朝着更高性能、更低损耗、更小型紧凑且易于封装集成等方向做出提升。因此,设计研发损耗更低、更高带宽的小型化滤波器已经成为当前热点。此外,将滤波器与射频天线集成到一起设计出具有滤波功能的滤波天线,可将无线通信系统的集成度进一步提升。作
学位
津冀港口群区位相近,腹地交叉,岸线资源紧密相连,具有实现港口群一体化发展得天独厚的优势,但在京津冀港口一体化建设中存在着港口建设同质化严重、管理体制滞后于港口一体化进程等一系列问题。因此,针对建设京津冀世界级港口群过程中存在的问题,提出相关的对策建议。
期刊
时间敏感网络是一种确定性以太网,能够满足众多行业对数据确定性的传输需求。但是在工业自动化应用场景中,由于网络结构复杂,流量类型众多,导致时间触发流选择不同传输路径发生碰撞的可能性各不相同,无法保证时间触发流传输时延和抖动。因此,本文提出了时间敏感网络中时间触发流路径选择与调度算法,解决时间触发流调度成功率低,调度时间长等问题。论文的主要研究工作如下:1.针对时间敏感网络最短路径算法存在网络拥塞的问
学位
2019年年末爆发的新冠疫情,蔓延全世界,延续至今,给世界人民造成了重大损失。在经济全球化,交易国际化的今天,所有人都休戚与共。时至2022年初,新冠病毒的变异毒株Omicron和Delta毒株仍在大肆流行,再一次威胁全人类的身体健康,而且这两种毒株对不同人群的感染能力不同。所以,有必要对具有不同易感度的双病毒COVID-19模型进行研究,揭示病毒的传播规律,为疫情防控提出理论上的指导。第一,针对
学位