论文部分内容阅读
随着数字化、网络化和信息化时代的到来,人机交互平台越来越趋向简便化,如企业采用电子商务和呼叫中心来服务客户和加速商业进程。为此,发展可靠的高性能语音识别系统对于信息高效快速传递变得十分必要。实际人们在交流常常会不自觉地加入一些英语词汇,如人名Peter张,游戏PK等,而传统的单语音识别处理往往针对一种特定语言建立声学和语言模型及发音字典,对于外来的第二种语言将无法处理,从而限制了语音识别技术在很多行业领域的应用。因此,中英文双语识别的研究变得更加必要。
本论文主要研究基于非特定人的中英文双语识别系统中的关键技术,特别是中英文双语识别系统中声学建模方法以及中英文混合发音字典构造方法。论文的内容包括:
1、介绍中英双语语音识别中模型参数共享的一般方法,详细讨论基于数据驱动的自动聚类算法和基于决策树分裂的模型状态参数共享方法。
2、利用HTK工具进行研究和分析,实现基于HTK平台的声学模型训练和性能评估方法。分别训练出基于中文声韵母和基于中文音素的声学模型,并在此基础上,利用决策树状态共享策略训练出上下文相关声学模型(tri-phone)。
3、基于混淆矩阵,构造两种映射表,一种是英文音素到中文声韵母的映射表,另一种是英文音素到中文音素的映射表。
4、根据得到的映射表,重新构造中英文混合发音字典,并将其应用到中英双语混合语音识别系统中,并对这两种方法所构造出来的系统的性能进行了比较。