基于DNN-LSTM语音识别系统的设计与实现

来源 :东南大学 | 被引量 : 0次 | 上传用户:tanwenbin89
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音识别是自动将人所发出的声音信号转换为其对应的文本信息的技术,且作为最自然的人机交互手段,该技术一直是人工智能的热点研究领域之一。深度神经网络模型作为多层非线性模型,拥有足够的学习能力,能够良好的解决复杂环境下的语音识别问题。LSTM网络作为循环神经网络的进阶版本,更是解决了其梯度坍塌与梯度爆炸的问题,但是,这类神经网络语言模型普遍具有模型过大,运行速度慢的缺点。所以在语音识别系统运行中,往往会在第一次识别得到最优的前N个结果,而后将这些最优结果再放入到神经网络语言模型中再次运行取得最终结果。这种两阶段识别的技术方案既可运用神经网络语言模型,又能减小模型运算量,加快系统运行速度。本论文面向公安审讯笔录系统,设计实现了一套基于DNN-LSTM的大词汇量连续语音识别系统,主要工作如下:1、针对论文所使用的应用场景,分析其功能需求与非功能性需求,并根据需求分析结果划分出系统的功能模块,而后依照系统功能模块图,对各个子模块进行了概要分析与设计。2、在解码识别模块中,构建了基于DNN-HMM的声学模型,该模型利用DNN来计算每帧声学特征所对应音素的后验概率,使用HMM来对声学特征的动态属性进行建模。并且利用跨层传递链接的办法改造DNN,跨层传递可以将浅层学到的特征直接传递至深层,由此减少因网络层数过深带来的特征传递损失。实验验证了该声学模型的有效性。3、加入了基于LSTM的重评估模块以改进语音识别的整体识别性能。在原有的使用tri-gram模型作为语言模型的基础上,于解码识别模块之外添加了基于LSTM语言模型的重评估模块。实验表明,加入该重评估模块之后,系统的整体识别效率优于一次性识别方案。4、基于以上工作,设计并实现了基于DNN声学模型及LSTM语言模型的面向审讯系统的实时语音识别系统,测试结果表明所设计实现的系统满足了需求。
其他文献
半桥驱动芯片具有高可靠性、高集成度和智能化等优点,在电机驱动和开关电源中应用广泛。死区控制技术是半桥驱动芯片的关键技术之一,死区时间过长会导致额外的体二极管导通损耗,过短则会增加功率器件的直通风险。尤其在高频应用中,当驱动芯片输入信号为窄脉冲时,功率器件极易发生直通问题。因此,研究半桥驱动芯片自适应死区控制电路具有重要意义。本论文首先介绍了半桥驱动芯片以及自适应死区控制电路的研究意义,然后分析了死
3D成像系统通过距离探测建立物体轮廓的深度图像,典型的成像系统可以提供毫米以下级别的精度。典型的激光雷达(Light Detection and Ranging,Li DAR)系统利用高灵敏度的SPAD传感器,产生异步上升沿信号定义光子飞行时间(Time of Flight,ToF),并通过时间数字转换器(Time to Digital Converter,TDC)将待测ToF转换为数字编码,完成
随着物联网(The Internet of Things,IOT)技术的快速发展,IOT设备的信息安全越来越受到人们的重视。真随机数发生器(True Random Number Generator,TRNG)从源头上为IOT设备的信息安全提供了保障。基于振荡环(Ring Oscillator,RO)抖动的TRNG以其结构简单,易于实现,随机性好的特点得到广泛应用。但是现有基于RO抖动的TRNG普遍
氮化碳(CN)由于其卓越的化学和光电特性,受到了从超硬材料领域到人工光合成等领域的广泛关注。从分子结构来看,CN这类材料可以被视为石墨的一种类似物,其中一些C原子有规律地被N原子取代。有趣的是,二维骨架中N原子掺杂极大地丰富了碳材料的特性,不仅可赋予其独特的表面性质,而且还能够调控电子能带结构以实现光电转换。在此基础上,CN材料展示了广泛的应用前景,从光催化水分解、CO2还原、小有机分子的氧化到光
与传统的功率硅基器件相比,增强型氮化镓(Gallium Nitride,Ga N)器件具有更高的开关速度,被广泛应用于各类高频电源系统中。隔离式栅极驱动芯片是一种可提供高驱动速率、高隔离性能的功率驱动芯片,能有效提升Ga N功率器件在高频系统应用中的抗干扰能力。高压电平移位电路作为其中的核心电路,其性能的优劣直接影响到芯片的传输速率与可靠性。因此,研究全隔离高压电平移位电路的传导特性及抗噪声能力具
变体飞行器能够跟随外界不同的飞行环境相应地来调整自身的物理结构形态,保持良好的飞行姿态或布局,以期达到飞行所需的最适宜的气动特性。相比传统固定翼、旋翼式飞行器,它显著地提高了飞行器的性能,大大拓展了应用场景和活动空间。本文从仿生微飞行器的研究背景、变体机翼的仿生飞行机理、压电网格化结构设计、模型仿真计算、压电单元参数化讨论、机翼局部变形分析、压电薄膜制备、机翼系统实验等方面进行了探索研究。主要内容
全球统计数据显示,恶性脑肿瘤已成为严重威胁人类生命健康和预后情况的疾病之一,新增患病人数在全年龄段中都呈现了逐年上升的趋势。脑肿瘤的常规诊断方法为影像学检查和组织活检,虽然到目前为止,组织活检或病理学检查仍为临床上诊断肿瘤的金标准,但基于组织活检的病理学检查仍存在诸多限制,磁共振成像技术(MRI)可以详细清晰地显示人体结构,是脑肿瘤的标准成像方法之一,在身体其他部位肿瘤中也有越来越多的应用。磁共振
模块化多电平换流器(MMC)是电力电子技术当前研究的重要课题之一。尽管目前学术界已经提出了大量MMC的调制算法和控制策略的研究,但是对于它们的分类、分析和评估还缺少普遍共识。本文的主题是研究基于差模-共模分量分解的MMC控制策略。本文采用载波移相调制算法以减小无源器件(桥臂电感、电容等)的体积和成本,同时提出了控制目标以及对应的控制策略验证和分类方法。MMC的主要控制目标是控制其每个相单元的共模电
近年来,柔性可穿戴电子传感器由于具有结构轻薄、便于携带、电学性能优异和易于集成等特点逐渐引起人们广泛关注,其在人体健康监测、电子皮肤设备、人体运动检测、植入式医疗器件等领域都具有广阔应用前景,尤其是在个体化健康监护和疾病早期诊断领域,已成为目前的研究热点。到目前为止,各种柔性可穿戴传感器已被广泛开发用于人体健康监护研究。由于单一的检测数据通常很难准确地判别个体的健康情况,因此集成化和多功能化是可穿
目的探索不同比例聚乳酸/羟基乙酸(poly(lactic-co-glycolic acid),PLGA)与不同含量紫杉醇(paclitaxel,PTX)结合后,形成的载药膜片的降解性能、药物释放性能与机械性能,为后续制备胆道可降解载药支架以治疗良性胆道狭窄提供新的可能。方法按照1:25的比例将不同配比PLGA(50/50、70/30、80/20)加入二氯甲烷中,载药组按相应比例加入紫杉醇(0%、1