广播语音的自动标注系统

来源 :北京邮电大学 | 被引量 : 9次 | 上传用户:q999666
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着计算机技术、网络技术和通讯技术的快速发展,人们可方便快捷地获得图像、视频、音频等多媒体文件,全球多媒体数据出现爆炸式的增长,其中音频信息占有十分重要的地位。如何对海量级的多媒体资源进行有效的索引和信息检索成为当前一个研究热点,一种基于内容的音频检索方法对当今的大词汇量语音识别系统提出了更高的要求。在众多多媒体数据中,广播新闻是被大多数的多媒体研究课题重视的代表性音频数据,因为广播语音包含静音,音乐,说话人语音和噪音背景等音频要素。要提高广播语音识别的性能以及鲁棒性,需要大规模精确标注的语料库。众所周知,为大规模语音语料库添加标注需要大量人力、物力,而由于广播语音识别的性能还不够高,现阶段的标注工作还只能通过人工手动来完成。如何自动完成语音音频的文本标注是降低语音识别系统成本的重要方向。在这一背景下,本文研究搭建一个广播语音的自动标注系统。由于多数情况下,广播语音的音频文件和其相应的文本可在互联网找到,所以,本文的研究重点不再是单纯的识别问题,而是如果完成给定的已知文本与音频的对齐。本文提出了一种基于语音识别和动态规划找锚点(可信对齐区域)的递归对齐算法,这个算法可简单描述为:首先对连续音频进行语音识别得到识别文本,然后再对识别文本与已知文本进行文本内容的匹配对齐,通过文本匹配找到可信任的对齐区域(称作“锚点”),利用锚点将音频和已知文本分成已对齐部分及未对齐部分,然后对未对齐部分重复上述递归过程。本文中,根据标注语料的目的、已知文本可能含错、部分音频质量太差等现实因素提出三大改进:第一,以句子为单位完成音频与文本的对齐,为方便之后的人工修订;第二,采用DTW的动态规划算法找对齐锚点,利用DTW的容错性能降低错误文本对整个标注系统的影响;第三,对于音频质量特别差,以至于找不到对齐锚点的部分,本文采用声学模型自适应的算法来提高语音识别的性能完成对齐。基于对音频与文本对齐算法的研究,结合端点检测、语音检测以及说话人分割等音频分割技术,完成广播语音的自动标注系统的搭建工作,对广播语音实现内容简介层,说话人身份层,说话内容层三层信息的自动标注。其标注完成度达到89.2%,精确度达到98.9%的句子偏差在1秒之内,这大大降低了人工标注的工作量,为之后人工修复标注提供了可靠的辅助信息。同时,为了提高广播语音自动标注的性能和精度,本文还研究了端点检测、语音检测以及说话人分割等音频分割技术,并在广播新闻语料中进行了实验和性能分析。
其他文献
详细分析和比较了多种8进制信号星座对应的信道容量限;获得了适合于带限高斯信道中多层码调制的星座设计.结果表明,合适的信号设计可以最大化多层码的编码增益.
护理不良事件是指在护理过程中发生的非计划的、未预料的以及不被希望发生的事件,一旦发生,往往会加重患者的痛苦,增加医疗费用,严重情况下还可给患者造成暂时或永久性的功能
在这个经济不断发展的时代里,广播电视与互联网相结合已成为当代广播电视行业发展的一个重要趋势,广播电视与互联网相结合有效地满足了我国当代社会发展的需求。然而网络具有
管理大师德鲁克曾言:"管理是一种实践,其本质不在于知,而在于行。"何为行?就是要讲究方法,追求实效。目前,我国学校管理存在的主要问题是,泛滥人治主义、拿来主义、形式主义,
针对含有时变和时不变未知参数的二阶非线性系统,结合Backstepping方法.提出了一种新的自适应重复学习控制方法,可处理参数在一个未知紧集内周期性快时变的非线性系统.通过引入参
为适应事业单位转型的需要,文章试图为事业单位建立风险导向财务控制模式,提高以财务管理为核心的管理能力,促进单位创造更大的社会效果和经济效益。风险导向财务控制模式分
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
针对棒线材加热炉在加热质量方面存在氧化烧损及脱碳情况方面损耗量大、加热温度均匀性差等问题,采用全平焰烧嘴、精细化供热分段等多种技术措施,达到进一步改善棒线材加热炉加
针对目前可靠组播传输协议研究中存在的两个问题,即缺乏统一的数学模型和对空间相关丢包条件下协议性能的分析,归纳构建了两类基本的可靠组播传输协议--基于确认的和基于否定
建立了冷却塔表面温度场的理论计算模型.针对三维网格的每一单元,建立了热平衡方程,其中考虑了太阳辐射、地球反射太阳的辐射、大气和地面的辐射、对流换热、表面各个单元之