【摘 要】
:
自动语音识别技术作为一项核心技术在呼叫中心、医疗服务和移动应用等领域得到了广泛的应用。随着国内外对语音识别技术研究的快速发展,汉语、英语等资源丰富语言的语音识别
论文部分内容阅读
自动语音识别技术作为一项核心技术在呼叫中心、医疗服务和移动应用等领域得到了广泛的应用。随着国内外对语音识别技术研究的快速发展,汉语、英语等资源丰富语言的语音识别技术已经达到了很好的识别性能,然而,藏语由于其语料库构建困难和语言本身的特殊性,语音识别技术发展缓慢,提升藏语语音识别系统的性能是当前语音识别技术领域的一个重要研究内容。本文主要研究卷积神经网络在藏语语音识别中的应用,主要工作如下:1.特征提取。将语音信号转化为语谱图,尽可能保留语音信号中的信息,作为深度卷积神经网络的特征输入。2.声学建模。将图像识别中取得良好性能的卷积神经网络引入到藏语语音识别中,从而更好地捕捉语谱图中的局部信息。3.端到端语音识别。将卷积神经网络与联结时序分类方法结合,设计了端到端的藏语语音识别系统。4.分类器结构优化。进一步增加卷积神经网络的层数,使用叠加卷积层的方法,提升网络的特征提取能力。对上述模型在实验室建立的藏语语料库进行对比实验,得出以下结论:1.将语音转化为频谱图作为特征提取方法,可以更好地保留语音信号时域中有利于识别的信息。2.使用卷积神经网络对语谱图进行语音特征提取,提升了藏语语音识别性能。3.端到端的藏语语音识别系统是可行的,并且识别结果优于使用交叉熵作为损失函数的识别模型。4.增加卷积神经网络的层数,并选择合适的激活函数,能进一步提升语音识别性能。5.在卷积层后加入批量归一化处理以及Dropout处理技术,在网络训练中按固定比例对神经元进行“舍弃”,在减少训练时间的同时提升识别性能。
其他文献
基于功能化纳米粒子修饰电极的电化学传感器由于制备方法简单、操作性强、选择性好、灵敏度高、响应时间短、检测成本低等优势,已被广泛应用于工业生产、临床医学、药物分析
如何安全高效地识别个人的身份,是信息化时代必须要解决的一个重要问题。传统的身份识别方法,如身份证、用户名等,存在着容易遗失和泄露等无法克服的缺点,越来越难以满足社会
推进纺织业智能信息化建设不但是国家战略也是行业需求,其中织物疵点的智能自动检测是重中之重,占据重要地位。因其作为纺织业质量控制的重要环节,直接影响产品质量,关系到企
深度估计在很久之前就在计算机视觉中得到很大的关注,到目前为止仍旧是一个有待继续研究的课题,因为深度估计不同于其他的计算机视觉算法,比如目标检测,人脸识别等,只需处理
骨龄评估通过骨骼发育形态推断儿童生长的实际情况,具有很多临床应用,例如诊断内分泌疾病和预测青少年最终的成年身高等。骨龄评估方法根据发展的历程可以分为:基于人工估计
作为全球范围内影响较为严重的生态环境问题之一,土壤侵蚀不仅对人类的生存构成威胁,而且也阻碍了社会的发展。土壤侵蚀的防治,必须建立在土壤侵蚀定量评价制图、掌握土壤侵
随着机器人技术的快速发展以及机器学习等技术的逐渐成熟,移动跟踪机器人广泛应用于各个领域,在越来越多的岗位上代替人类完成了复杂工作,实现了生产生活的智能化。本文针对
目标检测是计算机视觉的重要组成部分,主要是定位一张图片或者视频中特定物体出现的区域并判断图像中出现的目标类型。随着深度学习的发展,基于深度学习的目标检测在众多领域
无线射频识别技术(Radio Frequency Identification,RFID),具有非接触、识别距离远、保密性高、抗干扰能力和环境适应性强等优点。RFID室内定位技术的研究不但具有广阔的市场
随着视觉大数据的和人工智能的发展,视频数据的分析是未来计算机视觉领域的关键,其中监控视频的行人识别、检索和分析是一项越来越重要的任务。多个摄像头之间的行人匹配任务