基于BPE和Transformer的汉语语音识别技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:minjiangfashion
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音识别是实现人机语音交互的前提条件,正受到研究者越来越多的关注。基于联结主义时序分类(Connectionist Temporal Classification,CTC)的端到端声学模型建模技术成为主流方法之一,但选择用于CTC预测的基本输出单元是一个设计难题。识别单元的选择一般是基于语音学知识的,但是也可以通过数据驱动的方式来产生,使用后者所确定的单元可能在语音学上也许没有什么明确的意义,但也可能达到很好的性能。此外,语音识别系统中往往还包括语言模型,在传统建模方式中常采用n-gram语言模型。随着深度学习的发展,找到优化的策略或网络结构对语言模型进行改进也颇具研究价值。在此背景下,本文分别对自动语音识别系统中的声学模型建模技术和语言模型建模技术进行探索,一方面结合CTC理论提出新的建模单元集合,探究新的语言模型神经网络结构,提升语音识别的整体性能。首先,本文利用字节对编码(Byte Pair Encoding,BPE)算法的思想对声学模型进行改进,通过为其选择更合适的识别单元来提升语音识别性能。CTC声学模型可以选择大于音素的输出单元,比如声韵母和音节等,而且不用对输入语音信号的每一帧进行标注。BPE算法通过迭代地合并文本中出现最频繁的单元并将其添加到子词单元集合中,自动地学习和发现识别单元的最佳集合,也能自动地学习分解目标序列的最合适的方式。另外,本文利用Transformer网络实现了从声学模型输出的音节序列到文字的解码过程。相比n-gram模型,Transformer网络更容易捕获句子中长距离的相互依赖的特征,这样能充分利用语境信息,在音字转换中发挥更大优势。经过实验对比,改进的语言模型系统性能得到提升。而且相比循环神经网络(Recurrent Neural Network,RNN),Transformer对于增加计算的并行性也有直接作用,适合语言模型建模任务。基于BPE的声学建模和基于Transformer的语言模型建模技术结合起来,在汉语识别准确率上性能有了明显的提升。
其他文献
根据新课标发展要求,将核心素养作为关键内容进行培养是新的物理教学要求,因此当下,教育教学注重于培养学生的全面综合的发展,旨在培养现代社会需要的人才。高中物理是物理学
笔者自2000年以来采用小针刀松解风池穴的方法,治疗枕大神经痛60例,疗效满意,现报告如下。1 一般资料60例中,男28例,女32例;年龄最小30岁,最大68岁;病程最短1年,最长15年。患者均在风
阴极电泳涂料凭借其独特的外加电场的沉积方式,在不破坏金属基材的同时,能够在基材表面制得平整、可控、均一和高附着力的涂层,因此已经成为金属防护涂层领域的研究热点。随