论文部分内容阅读
语音识别技术是机器学习领域的一个重要研究方向,在现实生活中有着广阔的应用前景。随着移动互联时代的到来,移动终端成为主要的人机交互平台,语音识别技术在移动终端上的应用越来越受到人们的关注。
本文主要开发了面向移动终端的语音助手软件AudioPhone,该软件在卡内基梅陇大学的连续语音识别引擎POCKETSPHINX基础上进行了算法改进,实现了关键词识别功能,解决了运算速度过慢的问题,此外本文针对使用过程中遇到的口音问题进行了研究。主要工作有以下几个方面:
第一、语音助手软件AudioPhone的设计与开发。关键词识别算法性能在PC机上经过验证后,在手机操作系统Android平台上进行了移植,并实现了语音导航、通话记录分析、语音拨号功能。
第二、关键词识别算法的实现与改进。针对POCKETSPHINX的连续语音识别算法无法拒绝集外词汇(OOV)问题,提出了在搜索网络中动态加入垃圾词汇路径的方法,并通过实验探索了垃圾词汇选择策略,在POCKETSPHINX基础上实现了
关键词识别功能;针对原始搜索算法时间复杂度和空间复杂度过高的问题,以词格理论为基础改进了搜索算法,对原来的三阶段搜索进行裁剪,只保留一阶段搜索,并利用一阶段搜索产生的词格信息计算后验概率得分和声学模型得分,大幅度提高了运算速度。并在PC机上开发一套性能测试程序,在录制的40人语料库上进行实验,召回率达到了92.10%,误警率为7.3,系统平均运行速度相对于POCKETSPHINX的搜索算法提高了两个数量级。
第三、口音问题的分析和解决。针对软件使用过程中带口音的语音识别率低的问题,引入了口音自适应算法,通过统计说话人口音发音规律,建立音节混淆矩阵,生成多发音字典,在识别过程中调整搜索网络,提高了识别率。在录制的短语口音语料库上进行实验,相对于标准发音字典,多发音字典使系统准确率从75%提升到90%。