【摘 要】
:
近年来语音识别和关键词检索技术发展愈来愈迅速,逐步走向实用化。关键词检索技术比连续语音识别具有更好的灵活性,因而具有更广泛的应用领域。本文研究的电视体育比赛音频的
论文部分内容阅读
近年来语音识别和关键词检索技术发展愈来愈迅速,逐步走向实用化。关键词检索技术比连续语音识别具有更好的灵活性,因而具有更广泛的应用领域。本文研究的电视体育比赛音频的关键词检索就是这方面的一个具体应用。由于体育比赛音频的构成比较复杂,要想提高关键词检索系统的性能,系统的前端处理模块——音频分段分类显得至关重要。本文主要研究了以下几个方面:体育比赛的音频分段分类算法:电视体育比赛音频构成非常复杂,包括解说员语音、音乐、欢呼声、进球声和口哨身等。针对体育比赛音频自身的特点,本文尝试了三种音频分段分类算法。分别是:基于音素解码的方法;基于BIC距离测算和GMM模型相结合的方法;基于BIC距离测算和音素解码相结合的方法。并基于这三种方法分别对足球比赛、网球比赛和篮球比赛做分段分类试验,从实验结果上来看,无论从精度还是从召回率上,基于BIC距离测算和GMM模型选择相结合的方法在提取解说员语音的效果上要好一些。因此建议选择这种方法对体育比赛音频进行音频分段分类。关键词检索系统改进:在实验室关键词检索基线检索系统的基础上做了一些改进工作。由于此基线系统是用于广播新闻语音的,显然不太适用于体育比赛音频的关键词检索。基于此,本文对关键词检索基线系统的声学模型和语言模型做了自适应。针对不同的体育比赛类别,本文主要做了四个实验:一是基线声学模型保持不变,做语言模型自适应;二是基线语言模型不变,基于MAP做声学模型自适应;三是用各自的自适应数据对相应类型的比赛音频做声学模型和语言模型自适应;四是用混合后的自适应数据对比赛音频做声学模型和语言模型自适应。从试验结果来看,第三种方法能够较好的改善关键词检索基线系统的性能。
其他文献
信号参数估计是信号处理研究领域的重要内容,其不仅是军事信息化不可缺少的一环,也关乎到通信、定位、地震监测等民用科技的各个层面。在日益复杂的电磁环境中,要更有效的利
本文设计了一款以ARM技术、CAN总线技术和以太网技术为核心技术的协议转换器,用于实现对计量泵的远程控制。首先在明确国内外研究现状以及系统功能需求上,分析了现场总线发展
智能车辆视觉导航系统是智能交通系统的重要组成部分,道路检测是车辆视觉导航中的关键技术,其效果受到噪声质量和成像质量的影响。智能车辆要实现在城市繁忙道路上完全无人驾
随着高清视频应用的快速发展,视频传输和储存方面产生了巨大的挑战。在这一新环境下,Joint Collaborative Team on Video Coding(JCT-VC)工作小组制定了新的视频编码标准High
在现实生活中,音频常常会因为环境噪声、网络拥塞和设备限幅等影响,而产生诸如脉冲干扰、片段丢失和削顶失真等情况的受损,降低音频的可听度和可懂度。如果音频应用于语音识
卫星网络由于其覆盖范围广、链路带宽高、频率可复用等优良特性,成为下一代互联网的一个重要研究领域,它可以有效缓解地面骨干网络拥塞,并为全球提供移动接入。其中,低轨道(L
随着计算机视觉技术研究的不断深入,图像处理和模式识别技术得到广泛应用。利用昆虫翅膀图像对昆虫种属进行分类,是模式识别技术在昆虫识别领域的一个新探索。目前在昆虫生物
本学位论文的研究课题来自于东南大学移动通信国家重点实验室自主研究课题“短距离无线通信与泛在网络关键技术研究”(编号:2008A08)。论文以新疆生产建设兵团棉田节水灌溉、水
随着技术的发展,雷达监视场景日益复杂化,复杂环境中的目标跟踪问题已成为了现代雷达的严峻挑战。传统跟踪雷达仅在接收端对接收回波进行自适应滤波处理。之后出现的自适应雷
光纤无线(Radio over fiber, ROF)是一种新出现的超宽带无线接入技术,而光生毫米波技术是实现ROF系统的一个关键因素。光学倍频法(Optical frequency multiplication,OFM)在