论文部分内容阅读
随着经济全球化,国内、国际航班数量逐年递增,民航领域受到极大关注,保障和提高民航安全成为了首要任务。以国内来看,一名管制员在同一时间范围内需要与国内、国际航班进行交流,涉及英文、中文频繁切换使用,这将增加陆空通话发生错误的概率。因此将语音识别技术应用到陆空通话领域将有助于减少陆空通话的语义表达错误,对于提高管制员工作效率意义重大。本文主要研究中英文民航陆空通话语音识别的方法,具体研究内容如下:第一,研究中、英文陆空通话语言特点构建了中英文陆空通话数据库。分别采用深度神经网络(DNN)、长短时记忆网络(LSTM)、卷积神经网络(CNN)结合隐马尔科夫模型(HMM)构建中英文陆空通话声学模型,针对该数据库完成对比实验。通过词错误率比较,证明基于DNN-HMM的模型在中英文民航陆空通话领域表现突出。第二,提出了一种适用于中英文民航陆空通话的共享隐层的卷积深度神经网络-隐马尔科夫模型(CDNN-HMM),解决了中英文民航陆空通话语言规则的差异以及多样性问题。音素标注时,将CMU标准英文音素映射为TIMIT标准英文音素,重构语言模型用于识别;在声学特征提取过程中加入低帧率以加快解码、训练速度。通过词错误率对比分析表明,应用卷积深度神经网络声学模型解决民航陆空通话语音识别问题优势明显,音素映射方法能够进一步提高识别性能,低帧率有效降低了模型训练和解码的复杂度。