论文部分内容阅读
近年来,随着计算机技术、网络技术和通讯技术的快速发展,人们可方便快捷地获得图像、视频、音频等多媒体文件,全球多媒体数据出现爆炸式的增长,其中音频信息占有十分重要的地位。如何对海量级的多媒体资源进行有效的索引和信息检索成为当前一个研究热点,一种基于内容的音频检索方法对当今的大词汇量语音识别系统提出了更高的要求。在众多多媒体数据中,广播新闻是被大多数的多媒体研究课题重视的代表性音频数据,因为广播语音包含静音,音乐,说话人语音和噪音背景等音频要素。要提高广播语音识别的性能以及鲁棒性,需要大规模精确标注的语料库。众所周知,为大规模语音语料库添加标注需要大量人力、物力,而由于广播语音识别的性能还不够高,现阶段的标注工作还只能通过人工手动来完成。如何自动完成语音音频的文本标注是降低语音识别系统成本的重要方向。在这一背景下,本文研究搭建一个广播语音的自动标注系统。由于多数情况下,广播语音的音频文件和其相应的文本可在互联网找到,所以,本文的研究重点不再是单纯的识别问题,而是如果完成给定的已知文本与音频的对齐。本文提出了一种基于语音识别和动态规划找锚点(可信对齐区域)的递归对齐算法,这个算法可简单描述为:首先对连续音频进行语音识别得到识别文本,然后再对识别文本与已知文本进行文本内容的匹配对齐,通过文本匹配找到可信任的对齐区域(称作“锚点”),利用锚点将音频和已知文本分成已对齐部分及未对齐部分,然后对未对齐部分重复上述递归过程。本文中,根据标注语料的目的、已知文本可能含错、部分音频质量太差等现实因素提出三大改进:第一,以句子为单位完成音频与文本的对齐,为方便之后的人工修订;第二,采用DTW的动态规划算法找对齐锚点,利用DTW的容错性能降低错误文本对整个标注系统的影响;第三,对于音频质量特别差,以至于找不到对齐锚点的部分,本文采用声学模型自适应的算法来提高语音识别的性能完成对齐。基于对音频与文本对齐算法的研究,结合端点检测、语音检测以及说话人分割等音频分割技术,完成广播语音的自动标注系统的搭建工作,对广播语音实现内容简介层,说话人身份层,说话内容层三层信息的自动标注。其标注完成度达到89.2%,精确度达到98.9%的句子偏差在1秒之内,这大大降低了人工标注的工作量,为之后人工修复标注提供了可靠的辅助信息。同时,为了提高广播语音自动标注的性能和精度,本文还研究了端点检测、语音检测以及说话人分割等音频分割技术,并在广播新闻语料中进行了实验和性能分析。