【摘 要】
:
自动语音识别(ASR,Automatic Speech Recognition)是通过机器识别和理解过程,把人类的语音信号转变为相应的文本或命令的技术。语音识别技术是一门综合技术,融合声学、语音学、
论文部分内容阅读
自动语音识别(ASR,Automatic Speech Recognition)是通过机器识别和理解过程,把人类的语音信号转变为相应的文本或命令的技术。语音识别技术是一门综合技术,融合声学、语音学、语义学、信号处理、心理学,经过近60年的发展,已经取得了很大的进展。目前在特定领域已经能够达到应用的程度,但是要实现大词汇量连续语音识别还有很多难点有待攻克,尤其是在说话人无关、高噪音的环境下,识别准确度明显下降。
本文主要研究汉语连续语音识别中涉及的关键技术。建立语音识别系统的基本流程,语音信号处理的基本理论,着重研究了端点检测方法、特征提取原理及方法。然后分别从两个角度阐述汉语连续语音识别过程:模式识别角度和基于HTK的软件识别过程。
首先,研究了汉语语音的特点。汉语属于东方语系,在字形、发音方式方面与英语等西欧语系差别很大,因此要建立高质量的语音识别系统需要对汉语语音的特点进行深入研究。本文是基于隐马尔科夫模型(HMM)的连续语音识别,特征向量采用美尔倒谱系数(MFCC),基于上下文相关的三音素HMM,结合汉语特有的声韵母加声调的发音方式等一系列技术,利用隐马尔科夫模型工具箱(HTK)构建了实验平台。设计实验比较了不同高斯混合度(Mix)和不同音素模型下系统的表现性能。实验结果表明,采用上下文相关三音素模型识别精度达到98.00%,识别效果明显。
其次,利用HTK工具包,设计实现了汉语连续语音识别模拟系统。本文介绍了HTK软件包架构及提供的模型分析工具,利用其接口应用程序ATK(AnApplication Toolkit for HTK)实现汉语连续识别系统并进行相关测试。
其他文献
随着嵌入式系统与无线网络技术的迅速发展,如何实现Internet的高速无线接入成为热点话题。无线局域网技术因其覆盖范围有限、存在通信盲区等缺点,已无法满足人们对高速便捷无
无线多媒体传感器网络(Wireless Multimedia Senor Network, WMSN)相比传统无线传感器网络,具有信息采集更精准、环境监测更细致的特点。目前,无线多媒体传感器网络衍生出针
分段式永磁低速直线电机能在不使用变频设备及齿轮传动装置的基础上实现恒低速直线长距离运行,采用初级分段的设计使得电机的供电分段进行,极大程度地减小了运行时的损耗,因而具有十分巨大的发展潜力和应用空间。由于此电机独特的设计结构及原理,使其存在着强耦合及非线性等特点,目前还没有形成系统的理论体系。本文首先简单回顾了低速电机以及永磁低速直线电机的研究现状,介绍了分段式永磁低速直线电机的低速运行以及初级分段
工频熔炼炉冶炼废杂铜过程中伴有大量的废弃烟气产生,必须用大功率除尘风机进行抽风,使有害烟气经除尘系统处理后回收到除尘袋中,从而达到降低空气污染的目的。针对目前工频
回转窑熟料烧结是氧化铝生产工艺中的关键工序。烧结过程是一类典型的复杂工业过程,用机理分析或系统辨识的方法建模难度很大。在鼓风机、排烟等风门开度保持不变的情况下,喂煤
建筑结构在长期的使用过程中,由于在环境侵蚀、材料老化、突变效应等因素的共同作用下,会造成结构系统的损伤积累、抗力衰退。当损伤累积到一定的程度就可能导致建筑结构的整体
近年来随着国内生活水平的显著提高,心脑血管疾病及其病发症逐年增多,因此与血液相关的医学检测成为近年来临床血液学发展最快的领域,对检测方法的要求也越来越高,采用全自动血凝仪进行血液相关的医学诊断检测,成为临床血液学检测的新趋势。本文对现阶段国内外血凝仪的检测原理和控制系统进行了分析,针对现阶段国内外全自动血凝检测仪存在的检测系统原理复杂,智能化程度不高,硬件系统维护成本高等问题,尤其是国内血凝仪均采
随着电力系统的发展,许多大功率变动负荷和其它非线性负荷大量接入电网,导致电网中电压波动和闪变现象日趋严重。电压波动和闪变的检测已经成为电能质量研究的一个重要方面。传统的电压波动和闪变检测方法对平稳的单频率调制的正弦电压波动信号显示出强大的优势。但实际的电网信号往往是非平稳的,且受到谐波和噪声等因素的干扰,对于这类电压闪变信号,传统的检测算法就很难准确地检测出闪变信息。针对上述问题,本文提出基于零空