论文部分内容阅读
随着语音识别技术的不断进步,语音识别在人们的生活和工作中越来越普及。然而由于识别错误不可避免,为了得到正确的识别结果,越来越多的研究者将语音识别与人机交互进行结合,从而提出了交互式语音识别的概念。通过为用户提供便捷的错误修正的交互手段,一方面可以保证识别结果的正确性,另一方面利用用户的修正可以使得语音识别系统不断完善。本文主要针对如何利用用户的修正信息展开研究。 本文从基于主题的语言模型自适应、结合重复词匹配的词网格重估两方面来对用户的修正信息加以利用,经实验验证,这两方面工作对于语音识别的效果有有效的提升。此外,本文针对影视视频的字幕转写等特定场景,结合众包的思想设计与开发了基于移动设备的交互式语音识别原型系统。 1、结合用户修正信息的语言模型自适应 本文提出了一种结合用户修正信息和基于主题的语言模型自适应方法。对于一条待识别的音频,该方法首先寻找其相邻的历史修正信息,利用相邻历史修正信息对当前识别句子进行主题推断,再用主题所对应的语言模型进行模型自适应,最后通过自适应的语言模型对当前句子进行识别。由于该方法采用了邻近的用户修正的正确文本,相当于进行了有监督的自适应;由于对每句都进行主题推断,使得推断的主题更加准确,从而自适应效果更好。该方法采用LDA(Latent Dirichlet Allocation)进行主题建模,采用基于困惑度的计算方法进行主题推断,最后通过插值的方法对语言模型进行自适应。实验表明,该方法可以使平均识别准确率提高2-6个百分点。 2、结合重复词匹配和词网格重估的识别结果优化 本文提出了结合重复词匹配和词网格重估的识别结果优化方法。该方法利用了连续音频中存在重复词的特性,以及交互式语音识别系统可获取正确的重复词文本的优势,结合基于发音相似性的重复词匹配和上下文关联的语言模型重估,自动的修正重复词的识别错误,从而对识别结果进行了优化。本文基于候选列表的相似度进行重复词匹配,根据重复词是否在词网格中分情况对词网格的优化进行了讨论。该方法可以使平均识别准确率提高1.87个百分点。 3、支持众包模式的交互式语音识别系统 本文设计并实现了支持众包模式的交互式语音识别原型系统。该系统主要针对离线语音转写识别的场景,例如网络视频或电影中的语音转写等等。系统采用服务器-客户端架构,服务器端实现离线语音识别、结果分发、修正结果接收等功能,客户端基于Android平台实现了基于候选列表和键盘输入的交互界面,保证了错误修正的便捷性和完全性。系统结合众包的模式,一方面可以灵活分配修正任务,一方面可以提高用户的操作体验。此外,系统还支持多个识别引擎的识别结果的融合,保证了正确的字的覆盖率。本课题通过合理的设计系统架构和模块,保证了系统的灵活性和可扩展性,结合适当的优化,一定程度上保证了系统的运行效率。