论文部分内容阅读
为防止因车务值班员的操作不熟练而引起的安全事故再次发生,铁总连发3个文件,明确提到车站需要配备相应的仿真演练设备,以确保上岗车务值班员素质达标、持证上岗,所以急需一套与现场一致的培训平台,对车务值班员进行培训与考核。然而现有的车务仿真培训系统并没有完成非正常情况下的操作培训,在非正常情况下,车务值班员需要与其他各个工种进行语音交互才能排除故障。语音识别的引入可实现语音交互,但问题也随之而来,现有的语音识别软件,例如科大讯飞、中科信利、百度等,并没有针对铁路行业的语料库,造成其对铁路车务术语的识别准确率仅为50%,这远远无法满足语音交互的需求。所以本文提出一种基于自然语言处理的车务术语语音识别方法,旨在突破传统车务值班员培训的局限性,虚拟化相关工种,实现培训中值班员与各个岗位的语音交互,并识别为文字信息,供系统考核。该方法以自然语言处理为基础,对科大讯飞云识别的语音文本进行查错与纠错,再进行语义分析,以提高对铁路车务术语的识别准确率,完成培训人员与系统的人机交互。研究内容包括以下几个部分:首先,结合本文目标与自然语言处理的相关理论,进行方法比选后,选择最适合车务语音文本的方法并应用到后文中。其次,设计车务语音文本纠检错方法,建立联合查错模型和文本纠错算法。查错模型在利用条件随机场对文本进行查错时,结合互信息弥补算法破坏字与字内在联系的不足。针对不同错误类型,采用不用的纠错方法:冗余错误采用直接删除法;利用语言模型对缺失错误进行纠正;误代错误则借同音词词典对其进行纠正。最后,对纠完错的文本进行语义分析,完成系统识别。提出了改进的正向最大匹配分词算法,通过词库预处理,所有首字相同且字数相同的词都被存储在同一链表中,能快速定位关键词,有利于缩短算法的运行时间。本研究所用方法也可用作现场车务的报文、批文、调度命令等录音文件文本化以及自动记录维修台账,形成专门的格式文档,便于故障分析,智能诊断。