论文部分内容阅读
语音识别技术为人们的生活提供了极大的便利,它在人机交互中扮演着不可替代的角色。由于各方面因素,如环境噪音、说话人口语化、语音识别引擎缺乏领域知识等,导致语音识别技术在特定领域难以应用。目前语音识别技术在铁路车务语境中尚未普遍应用,由于铁路车务术语表述要求标准化、专业化,部分字母数字发音具有特殊要求,导致铁路车务术语的语音识别正确率较低。因此本文主要针对上述问题,采用自然语言处理的方法对语音识别后文本进行处理,利用查错和纠错的方法优化识别结果,从而减少铁路车务语境下的语音识别后文本中的字词错误,实现语音识别技术在该领域的应用。主要有以下的研究内容及成果:(1)构建铁路车务语境下的n-gram模型和核心词语搭配术语库实现查错。首先训练语料构建bi-gram模型和tri-gram模型,并制定抽取规则获取语料中核心词语的搭配,构建核心词语搭配术语库;然后提出一种基于n-gram模型的加权分配法计算文本中词语的语境和谐度,实现文本的局部语境内初次查错,并结合核心词语搭配术语库计算词语的搭配聚合度,实现文本远距离语义层二次查错,最后采用双层递进式联合查错方法,准确定位语音识别错误点。(2)基于混淆集的纠错方法研究。采用一种拼音模糊匹配和精确匹配法结合散串重组策略,构建车务语境下的真词混淆集和拼音混淆集,用于文本中的真词纠错和散串纠错,并以语境和谐度和语义相似度的融合概率值作为混淆词支持度,选取支持度最大词为最优纠错建议输出。(3)基于关键字规则表的字母数字纠错方法研究。针对铁路车务用语中特殊发音字母和数字形成的散串错误,对具有特殊发音的字母数字构建关键字规则表,并基于关键字规则表利用规则匹配法实现字母数字纠错。(4)语音识别后文本查错和纠错方法的应用及结果分析。将本文提出的铁路车务语境下的语音识别后文本查错和纠错方法应用于铁路车务接发车培训系统,经实验验证,本文提出方法可有效提高铁路车务术语的语音识别正确率12.77%。该方法对语音识别技术在铁路车务领域的应用具有重要意义。