交互式语音识别中基于修正文本的自适应方法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:z1055622913
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着语音识别技术的不断进步,语音识别在人们的生活和工作中越来越普及。然而由于识别错误不可避免,为了得到正确的识别结果,越来越多的研究者将语音识别与人机交互进行结合,从而提出了交互式语音识别的概念。通过为用户提供便捷的错误修正的交互手段,一方面可以保证识别结果的正确性,另一方面利用用户的修正可以使得语音识别系统不断完善。本文主要针对如何利用用户的修正信息展开研究。  本文从基于主题的语言模型自适应、结合重复词匹配的词网格重估两方面来对用户的修正信息加以利用,经实验验证,这两方面工作对于语音识别的效果有有效的提升。此外,本文针对影视视频的字幕转写等特定场景,结合众包的思想设计与开发了基于移动设备的交互式语音识别原型系统。  1、结合用户修正信息的语言模型自适应  本文提出了一种结合用户修正信息和基于主题的语言模型自适应方法。对于一条待识别的音频,该方法首先寻找其相邻的历史修正信息,利用相邻历史修正信息对当前识别句子进行主题推断,再用主题所对应的语言模型进行模型自适应,最后通过自适应的语言模型对当前句子进行识别。由于该方法采用了邻近的用户修正的正确文本,相当于进行了有监督的自适应;由于对每句都进行主题推断,使得推断的主题更加准确,从而自适应效果更好。该方法采用LDA(Latent Dirichlet Allocation)进行主题建模,采用基于困惑度的计算方法进行主题推断,最后通过插值的方法对语言模型进行自适应。实验表明,该方法可以使平均识别准确率提高2-6个百分点。  2、结合重复词匹配和词网格重估的识别结果优化  本文提出了结合重复词匹配和词网格重估的识别结果优化方法。该方法利用了连续音频中存在重复词的特性,以及交互式语音识别系统可获取正确的重复词文本的优势,结合基于发音相似性的重复词匹配和上下文关联的语言模型重估,自动的修正重复词的识别错误,从而对识别结果进行了优化。本文基于候选列表的相似度进行重复词匹配,根据重复词是否在词网格中分情况对词网格的优化进行了讨论。该方法可以使平均识别准确率提高1.87个百分点。  3、支持众包模式的交互式语音识别系统  本文设计并实现了支持众包模式的交互式语音识别原型系统。该系统主要针对离线语音转写识别的场景,例如网络视频或电影中的语音转写等等。系统采用服务器-客户端架构,服务器端实现离线语音识别、结果分发、修正结果接收等功能,客户端基于Android平台实现了基于候选列表和键盘输入的交互界面,保证了错误修正的便捷性和完全性。系统结合众包的模式,一方面可以灵活分配修正任务,一方面可以提高用户的操作体验。此外,系统还支持多个识别引擎的识别结果的融合,保证了正确的字的覆盖率。本课题通过合理的设计系统架构和模块,保证了系统的灵活性和可扩展性,结合适当的优化,一定程度上保证了系统的运行效率。
其他文献
在现代信息社会,政府、企事业单位相继建立了各自的信息管理系统,这些独立的系统创建之初没有统一的规划,彼此之间数据的存储环境和存储形式差异大,很难实现有效的数据交换和共享
随着三维图形技术的迅猛发展,三维网格被广泛的应用在计算机图形和仿真中逼近三维模型。为了支持这些应用,三维网格的传输量也越来越大。同时,随着众多成熟的三维扫描和建模技术
无线通信的快速发展,嵌入式应用的日益复杂,对基带DSP(Digital Signal Processor)的处理能力提出了更高的要求,同时又需要满足一定的功耗、面积等设计约束,使得DSP的结构复杂度和
伴随互联网新型应用的广泛普及和飞速发展,传统程序设计方式面临着多核化、网络化等硬件变革所带来的分布并发程序设计的挑战。为了应对上述挑战,支撑互联网新型应用的高效开发
现在的数据中心每天必须处理成千上万的独立用户所产生的请求和数据,云计算和大数据类的应用负载使得数据中心的内部流量和外部流量占比发生了巨大的变化,占比已经从原来的5∶9
微博分类作为处理和组织大量微博数据的关键技术,可以很大程度上解决微博信息爆炸的现象。但由于微博文本具有长度短、口语化等特点,传统的文本分类技术对微博文本不太适用。随
图像配准是图像处理中的一个重要课题,也是图像融合首先要解决的问题,在许多实际应用中具有重要意义,是医学图像分析、遥感图像处理和目标识别的基本组成部分。随着新型传感
无线传感器网络中的节点一般采用电池供电,如何提高能量的有效性成为其主要研究内容。ZigBee是一种新兴的短距离、低速率、低功耗无线网络技术,主要用于近距离无线连接。本课题
虽然网络安全技术发展迅速,但由于网络拥有复杂的结构、庞大的规模以及广阔的地域分布,加上网络攻击技术不断提升,目前网络安全形势仍十分严峻。传统网络安全技术偏重被动静态防
近年来随着互联网视频规模的不断增大,为了加速视频在服务器的编解码速度,提升系统性能和服务质量,视频硬件加速技术不断发展。DPU-m是一款高通量多核视频加速芯片,主要用于服务