基于自然语言处理的铁路车务术语语音识别方法研究

来源 :兰州交通大学 | 被引量 : 1次 | 上传用户:calvin1987
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为防止因车务值班员的操作不熟练而引起的安全事故再次发生,铁总连发3个文件,明确提到车站需要配备相应的仿真演练设备,以确保上岗车务值班员素质达标、持证上岗,所以急需一套与现场一致的培训平台,对车务值班员进行培训与考核。然而现有的车务仿真培训系统并没有完成非正常情况下的操作培训,在非正常情况下,车务值班员需要与其他各个工种进行语音交互才能排除故障。语音识别的引入可实现语音交互,但问题也随之而来,现有的语音识别软件,例如科大讯飞、中科信利、百度等,并没有针对铁路行业的语料库,造成其对铁路车务术语的识别准确率仅为50%,这远远无法满足语音交互的需求。所以本文提出一种基于自然语言处理的车务术语语音识别方法,旨在突破传统车务值班员培训的局限性,虚拟化相关工种,实现培训中值班员与各个岗位的语音交互,并识别为文字信息,供系统考核。该方法以自然语言处理为基础,对科大讯飞云识别的语音文本进行查错与纠错,再进行语义分析,以提高对铁路车务术语的识别准确率,完成培训人员与系统的人机交互。研究内容包括以下几个部分:首先,结合本文目标与自然语言处理的相关理论,进行方法比选后,选择最适合车务语音文本的方法并应用到后文中。其次,设计车务语音文本纠检错方法,建立联合查错模型和文本纠错算法。查错模型在利用条件随机场对文本进行查错时,结合互信息弥补算法破坏字与字内在联系的不足。针对不同错误类型,采用不用的纠错方法:冗余错误采用直接删除法;利用语言模型对缺失错误进行纠正;误代错误则借同音词词典对其进行纠正。最后,对纠完错的文本进行语义分析,完成系统识别。提出了改进的正向最大匹配分词算法,通过词库预处理,所有首字相同且字数相同的词都被存储在同一链表中,能快速定位关键词,有利于缩短算法的运行时间。本研究所用方法也可用作现场车务的报文、批文、调度命令等录音文件文本化以及自动记录维修台账,形成专门的格式文档,便于故障分析,智能诊断。
其他文献
动臂是装载机工作装置最重要的构件。其强度状况对工作装置的性能和寿命有直接的影响。本文采用CATIA软件中有限元分析模块的GPS对轮式装载机工作装置的动臂进行有限元分析,
作为一种新的物流模式,绿色物流符合低碳经济和社会可持续发展的要求,代表了未来物流发展的方向和趋势。文章分析了赣州市发展绿色物流过程中存在的各种问题,并结合当前赣州
采用Piranha化学法与化学浴沉积技术相结合,在玻璃基板上成功制备了Sb2S3薄膜。研究了Piranha溶液不同处理时间对基板表面润湿性的影响,同时研究了Sb2S3薄膜相组成及形貌。结
<正>四环素牙是由四环素类催化脱卤生物合成的抗生素,毒性低,四环素沉积于牙、骨骼以至指甲等,引起牙釉质发育不全,在这方面,国内直至70年代中期引起注意,因此多发群体一般是
会议
综述了近年来在不饱和聚酯树脂中添加含铝、镁、磷及膨胀型阻燃剂阻燃不饱和聚酯树脂以及以含磷元素的阻燃剂或含阻燃元素的单体为反应物制备阻燃型不饱和聚酯树脂的研究进展
与传统外贸呈现低迷态势相反,跨境电商贸易进入快速增长时期,成为中国对外贸易的新增长点。抓住时机,制定符合跨境电商模式下的出口产品定价方法与策略是众多传统外贸企业进
在麦金太尔半个多世纪的学术生涯中,有一个主题贯穿其中,这就是对自由主义的批判。麦金太尔认为自由主义的问题主要体现在三个方面,即个人主义、自由主义的制度和自由主义的
国际货运代理在其经营过程中必须对风险给予充分的重视,风险是国际货运代理企业在经营管理过程中必须面对的一个现实问题,风险是客观存在的,具体可划分为系统风险和非系统风
界面传热系数是关键的边界参数之一,其准确程度直接影响温度场、应力应变场、组织场等的求解精度。界面压力是影响界面传热系数的主要因素之一,为了研究热冲压过程中界面压力
各种戏剧演出元素被运用至秀场,已成为不争的事实。尤其体现在诸多戏剧人物造型的植入。秀场人物造型中"戏剧性"的主要特点是将戏剧的综合属性渗入秀场,使其具有某种蕴含事件