【摘 要】
:
近年来,随着人工智能的兴起,人机交互技术开始被各行各业重视起来,而作为人机交互中关键技术的语音识别也再度进入了人们的视野。论文作者在实习单位的实习工作中发现,目前公
论文部分内容阅读
近年来,随着人工智能的兴起,人机交互技术开始被各行各业重视起来,而作为人机交互中关键技术的语音识别也再度进入了人们的视野。论文作者在实习单位的实习工作中发现,目前公司使用的基于深度神经网络(Deep Neural Network,DNN)语音识别系统中声学模型存在对上下文信息的捕捉能力弱、声学特征信息缺失、训练前需要进行标签对齐操作等问题,这些问题阻碍了系统识别性能的进一步提升。针对这些问题,本文基于卷积神经网络(Convolutional Neural Network,CNN)对声学模型的构建进行了研究,并通过实验对网络参数进行了优化,本文的主要工作和创新点有:1.构建了基于短时时-频谱的CNN-HMM声学模型。使用CNN代替DNN-HMM声学模型中的DNN构成CNN-HMM声学模型,将语音信号转化为短时时-频谱作为声学模型的输入进行训练,并在完成训练后与以Fbank声学特征作为输入的CNN-HMM声学模型及DNN-HMM声学模型进行了识别性能对比。结果显示:基于短时时-频谱的CNN-HMM声学模型识别性能要优于DNN-HMM声学模型;在都使用CNN-HMM声学模型的情况下,以短时时-频谱作为输入时的识别效果也优于以Fbank特征作为输入时的识别效果。2.通过实验分析了卷积层层数及卷积核尺寸对基于短时时-频谱的CNN-HMM声学模型识别性能的影响。分别构建2卷积层、3卷积层和4卷积层的CNN-HMM声学模型,均使用短时时-频谱作为模型输入进行训练,并在完成训练后进行了识别性能对比;通过对基于短时时-频谱的CNN-HMM声学模型卷积核尺寸进行调整,在相同网络结构下分别对2×2、3×3以及4×4卷积核尺寸的声学模型进行训练,并在完成训练后进行了识别性能对比。测试结果显示:卷积层层数以及卷积核尺寸的增加能够提升该声学模型的识别性能。3.将在时序分类任务上表现良好的连结时序分类(connectionist temporal classification,CTC)与CNN网络进行结合,构建了CNN-CTC声学模型,该模型能够以完整语音作为输入,避免了传统声学模型训练前必须进行的标签对齐操作,可简化模型训练的流程。测试结果显示:在两种不同类型输入的情况下,与CNN-HMM声学模型相比,CNN-CTC声学模型在简化训练流程的同时还拥有更好的识别性能,并且其解码速度也较CNN-HMM声学模型有了一定程度的提升。
其他文献
工业机器人是数字化制造的主要载体,离线编程和生产系统仿真软件为机器人自动化项目节省了时间,提高了生产率。本文对离线编程和生产系统仿真技术进行了研究,设计开发了基于
矿产资源是人类赖以生存的宝贵的资源,是人类文明生活日益发展的物质条件基础。中国是一个具有丰富矿产资源的大国,在排弃矿产资源废石废弃物的总量上世界排名第一,排土场在矿山整个生产时期以及闭坑后相当长时期内能否长期保持安全运行是矿山经营管理者必须考虑的重大问题。排土场一旦发生重大变化,就会对矿山生产和周围生态环境产生严重影响。排土场的选址、库容及堆排岩土参数的确定等,不仅直接关系着矿山开采成本,而且对土
云计算市场主要采用按需付费模式,这种模式需要云租户在提交计算任务(例如MapReduce)之前,根据该任务的服务需求(例如完成任务的截止时间)来估算所需要租用的计算资源(例如用于执行计算任务的虚拟机)的数量。在虚拟机性能会发生波动的公有云环境中,为了保障计算任务的按时完成以及减少租用计算资源的费用,租户需要自动化的资源管理系统,来根据计算任务的具体运行情况实时调整租用资源的数量。基于多模态神经网络
当前,我国正处于经济转型的重要关键时期,加快建设创新型国家以及实施创新发展战略是我国眼下亟待解决的一项任务。提高我国高技术企业的创新发展水平和技术研发能力,是当前
近年来随着“一带一路”及“中国制造2025”等战略的实施,我国高铁技术不断往安全、快捷、绿色、智能化的方向飞速发展,成为了我国社会经济发展的重要推动力量。随着高铁技术
对于保险公司来说,风险控制和红利分配是公司的运营中不可或缺的。一方面,公司盈余水平过低可能会导致破产,而建立适当的、有效的预警系统是一种可行的风险管理方法,可以从很
目的:探讨细胞色素P450 2E1(CYP2E1)基因调控酒精游离脂肪酸协同增效性脂肪性肝炎巨噬细胞代谢重编程的分子机制。方法:1建立CYP2E1过表达的酒精性肝炎细胞模型,非酒精性脂肪性肝炎细胞模型,酒精和游离脂肪酸协同增效性肝炎细胞模型、M1型极化型细胞模型、M2型极化型细胞模型,以空载CYP2E1细胞作为对照。在CYP2E1过表达(OE)细胞系和空载(NC)细胞系中各分6组,即空白对照组、酒
随着科技发展进步,三维场景重建在许多领域有着重要的实用价值和应用前景。使用激光雷达数据实现三维建模是近几年得到广泛应用的技术手段,但在特定场景中重建结果会存在目标
人体行为识别技术融合了计算机视觉、数字图像处理、人体运动学等多学科知识,对其研究可以促进相关学科共同发展。同时其在人机交互、无人驾驶、智能机器人、智能监控等领域
近年来,由于通过微装配得到的精密微小型机电产品具有结构紧凑、性能稳定、能耗低、抗干扰能力强等特点,在各个领域已得到广泛应用。本文针对自动微装配系统中的微小零件定位