基于深度神经网络的安多藏语语音识别

来源 :青海师范大学 | 被引量 : 3次 | 上传用户:jiangyingzhou
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音识别是模式识别领域中重要的研究分支,其目的是将人类语音信息转换为文本信息。在汉语和英语语音识别中,相比于传统的高斯混合模型-隐马尔科夫模型,深度神经网络的识别性能实现了质的飞跃。但目前有关藏语语音识别的研究较少,特别是藏语属于低资源语言且存在浊辅音趋于清化、元音有长短区别、单元音增多等特点,使得藏语的语音识别仍面临诸多挑战。在藏语的卫藏、康巴与安多三大方言中,针对卫藏方言的语音识别研究相对较多,有关安多方言与康巴方言的研究相对较少,特别是深度神经网络在安多藏语语音识别中的应用尚未深入研究。因此,本文从安多藏语声学模型结构出发,探讨了端对端双向长短时记忆网络在安多藏语语音识别中的应用。本文研究内容如下:1)语料库建立。收集了安多藏语中出现频率最高的1278个单音节词汇,对每个词汇采集藏语安多方言的语音样本,采样频率为16KHZ、量化精度为16bit且通过Cool Edit Pro软件在噪声不高于50dB的室内录制。2)预处理。对藏语安多方言语音信号进行预加重、分帧、加窗、预处理操作,消除由于人类本身发声器官和语音信号采集设备所带来的混叠、高次谐波失真、高频等因素对语音信号质量的影响。预处理操作使语音信号更均匀、平滑,确保在特征提取阶段提取更优质的参数,从而提高语音识别性能。3)特征提取。在安多藏语语音识别任务中,考虑藏语发音的特点,探讨了不同特征提取方法对系统性能的影响。本文分别采用传统梅尔频率倒谱系数和卷积神经网络两种方式提取特征。实验结果表明,应用卷积神经网络提取的特征效果优于梅尔频率倒谱系数特征。4)声学建模。双向长短期网络适合处理序列问题,链接时序分类技术不需要预先对数据进行标注、对齐处理以及后处理操作。因此将链接时序分类技术与双向长短时记忆网络相结合,实现了端对端的安多藏语声学建模。实验证明,基于双向长短时记忆网络端对端的安多藏语声学模型获得了较好的性能。
其他文献
文章采用预浓缩-GC-MS方法分析了上海某工业区大气中的挥发性有机物(VOCs)的组成,共检测出102种,其中工业区中心区域的大气主要成分是饱和烷烃(48.5%),卤代烷烃(14.4%),芳香
背景及目的:胃癌是最常见的肿瘤,影响其预后的因素众多,以淋巴结的转移情况评估预后即是其中之一,对于淋巴结转移情况,国内外学者普遍倾向于研究其转移数量,但因种种原因,临床上常常
本文主要好喷雾冷冻法微胶囊技术制备膨松剂
背景:整合素是一类重要的细胞表面受体,介导细胞与细胞以及细胞与细胞外基质间的粘附,并接受和传导级联信号调节细胞的存活、增殖、运动等生物学行为。整合素是由α和p两个亚
背景:食管癌是我国最常见的恶性肿瘤之一,而且其预后不够理想,术后生存率较低。随普分子生物学的发展,利用分子生物学指标判断预后、指导及开拓新的治疗策略已成为提高恶性肿
目的:探讨玉郎伞(YLS)提取物对大鼠急性肺损伤(ALI)的影响。方法:将Wistar大鼠随机分为7组,分别为正常组,模型组,阳性对照组(地塞米松,3 mg·kg-1),玉郎伞水提物(TYLS)高、低
目的:探讨新疆地区维吾尔族、汉族人群FGFR2rs2981582基因多态性与乳腺癌的易感相关性。方法:采用病例对照研究方法,收集新疆维吾尔族、汉族乳腺癌患者与健康人群的外周血标本,
细胞牵引力(Cell Traction Force):是细胞作用于细胞外基质的力。它是由肌动球蛋白的相互作用和肌动蛋白的聚合作用而产生的,细胞牵引力受α-平滑肌肌动蛋白(α-SMA)调控,并通过黏着
大数据作为一种技术范式,由于新的数据呈爆炸性增长和旧的技术工具无法胜任数据处理工作,大数据的技术社会风险日益加大,带来了诸如隐私泄露、数字鸿沟、数据孤岛、算法独裁
本文研究了预聚物-NCO含量、多元醇并用比、扩链剂种类和用量、预聚物制备方法对羟丁型、聚酯型浇注聚氨酯弹性体动态生热性的影响。