基于铁路车务语境的语音识别后文本处理研究

来源 :兰州交通大学 | 被引量 : 0次 | 上传用户:zoneshao1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音识别技术为人们的生活提供了极大的便利,它在人机交互中扮演着不可替代的角色。由于各方面因素,如环境噪音、说话人口语化、语音识别引擎缺乏领域知识等,导致语音识别技术在特定领域难以应用。目前语音识别技术在铁路车务语境中尚未普遍应用,由于铁路车务术语表述要求标准化、专业化,部分字母数字发音具有特殊要求,导致铁路车务术语的语音识别正确率较低。因此本文主要针对上述问题,采用自然语言处理的方法对语音识别后文本进行处理,利用查错和纠错的方法优化识别结果,从而减少铁路车务语境下的语音识别后文本中的字词错误,实现语音识别技术在该领域的应用。主要有以下的研究内容及成果:(1)构建铁路车务语境下的n-gram模型和核心词语搭配术语库实现查错。首先训练语料构建bi-gram模型和tri-gram模型,并制定抽取规则获取语料中核心词语的搭配,构建核心词语搭配术语库;然后提出一种基于n-gram模型的加权分配法计算文本中词语的语境和谐度,实现文本的局部语境内初次查错,并结合核心词语搭配术语库计算词语的搭配聚合度,实现文本远距离语义层二次查错,最后采用双层递进式联合查错方法,准确定位语音识别错误点。(2)基于混淆集的纠错方法研究。采用一种拼音模糊匹配和精确匹配法结合散串重组策略,构建车务语境下的真词混淆集和拼音混淆集,用于文本中的真词纠错和散串纠错,并以语境和谐度和语义相似度的融合概率值作为混淆词支持度,选取支持度最大词为最优纠错建议输出。(3)基于关键字规则表的字母数字纠错方法研究。针对铁路车务用语中特殊发音字母和数字形成的散串错误,对具有特殊发音的字母数字构建关键字规则表,并基于关键字规则表利用规则匹配法实现字母数字纠错。(4)语音识别后文本查错和纠错方法的应用及结果分析。将本文提出的铁路车务语境下的语音识别后文本查错和纠错方法应用于铁路车务接发车培训系统,经实验验证,本文提出方法可有效提高铁路车务术语的语音识别正确率12.77%。该方法对语音识别技术在铁路车务领域的应用具有重要意义。
其他文献
目前,人工智能技术正在快速发展,越来越多的研究者将智能语音技术(语音识别、语音合成、对话、翻译等)应用于语种保护、语音交流以及语音搜索等领域,尤其是民族语言的保护。
目的:1.脊髓损伤(Spinal cord injury,SCI)区域小胶质细胞的鉴别和分离;2.探讨SCI对小胶质细胞程序性死亡分子-1(Programmed cell death protein 1,PD-1)表达的影响;3.探讨SC
近年来,随着多层次资本市场的高速发展,在分业经营向混业经营不断渗透转变的趋势下,金融市场银行、证券、保险等各个子系统之间的关联程度愈发紧密,与此同时,金融风险也更易
泰国是全球“汉语热”具有代表性的国家之一。近年来,随着中泰两国在政治、经济、文化、旅游等方面的交流日益密切,泰国汉语教学的发展势头依然迅猛。其中,中小学阶段的汉语
随着全球经济的不断飞速发展,水面欠驱动船舶作为各国贸易往来的主要运输工具,因此受到了世界各国的广泛关注。为保证欠驱动船舶能够顺利完成各种指定航行任务,对其实现路径
我国西北属于典型的季节性冻土地区,且A、B组填料缺乏,土体每年随季节的变化至少会经受一次冻结和融化冻融作用,铁路路基在受到因季节变化而发生冻融作用影响的同时,也会受到
京津冀区域是我国经济发展的重要增长极,随着京津冀协调发展的推进,京津冀区域已经成为国家级的经济体,在我国的经济增长中具有重要作用。随着雄安新区的发展,京津冀地区经济
目的 探讨老年2型糖尿病(T2DM)合并非酒精性脂肪肝(NAFLD)患者与肥胖、血脂紊乱及胰岛素抵抗(IR)的关系。方法 115例老年T2DM患者根据B超检查结果,分为糖尿病(DM)合并NAFLD组(DFL组)与DM