声音事件识别中的有效特征提取方法研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:jiangchao1989
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近些年来,作为声音识别中的一个新兴的研究方向,“声音事件识别”因其广泛的应用前景,越来越受到研究学者们的关注。通过对声音事件,例如敲门声、掌声、脚步声,甚至鸟鸣声等,进行识别,能够感知所处的环境,并侦测出其发生的变化。因此,声音事件识别可以用于无人看守的安全监管、医疗救助,以及机器的智能化,同时也为实现更好的人机交互体验提供了可能。一方面,在几十年的发展过程中,研究学者们针对声音事件的识别任务,提出了一系列的特征提取方法和相应的识别系统,取得了突飞猛进的发展和进步。另一方面,随着人工智能技术的不断发展和突破,作为深度学习理论内容的一部分,深层神经网络因其强大的信息抽取和建模能力,在模式识别,自动控制,智能机器等诸多领域取得了显著的成就,尤其是在语音识别,图像理解等领域获得了突飞猛进的性能提升。目前声音事件识别系统在噪声环境较弱的情况下,识别效果很理想。但受声音事件自身特性的影响,随着噪声强度的不断增加,相应的识别效果普遍较差,未能取得令人满意的识别性能。为此,本文研究的重点和方向是,利用深层神经网络强大的对于信息提取和特征抽象的能力,提出能够对复杂噪声鲁棒的有效特征表示方法,进一步提升声音事件识别系统在噪声环境下的识别效果。主要包括以下几个方面内容:首先,提出了一种时频域非线性降采样的特征表示方法。由于传统的二维频谱图特征同时包含有时、频域的信息,为了使得到的频谱图特征具有更强的可区分性,本文提出了一种数据驱动式的时域和频域非线性降采样策略。频域上,通过分析噪声和不同种类的声音事件在不同频段上分布的差异性信息,确定相应的非线性降采样边界,对频谱图进行频域的非线性降采样。另一方面,在时域上,利用斐波那契数列来获取频谱图中不同长短的时域帧信息,并进行非线性降采样的操作。经过上述不同非线性降采样操作后得到的特征,将被送入相应的深层神经网络中进一步提取高层的抽象信息,并最终用来对声音事件进行识别。实验结果表明,利用频域方差非线性映射的特征表示方法,能获得较优的性能提升,特别是在强噪声的环境下。其次,提出了一种基于神经网络的谱图时频域融合的特征表示方法。在将耳蜗图特征引入声音事件识别的基础上,尝试利用深层神经网络对两种不同的时频二维特征图进行拼接和融合,获得更有效的特征表示方法。基于不同的神经网络,提出了两种不同的特征融合策略,即文中提出的“双通道特征融合”和“底层特征融合”。其中,双通道的特征融合方法利用了卷积神经网络的特殊结构,将频谱图和耳蜗图同时送入卷积神经网络的不同通道中,经过卷积操作后再进行特征的拼接;而底层特征融合的方法是,在将不同谱图特征送入神经网络之前就进行拼接融合。实验结果发现,经过特征融合后的系统性能有显著的提升,且基于卷积神经网络的底层特征融合的系统性能更优。最后,在前两部分研究的基础上,提出了基于神经网络的谱图多分辨融合的特征表示方法。从综合利用谱图信息的局部和全局特征的角度出发,同样采用上述两种不同的特征融合策略,对不同分辨率的谱图特征进行拼接融合。为了获取不同分辨率信息的谱图特征,我们采用不同的窗长和窗移对原始的音频信号进行处理。若窗长和窗移较短,则谱图特征中的时域分辨率较高,但频域的分辨率则较差,可以获得较好的局部信息:反之,则能在较大的窗长和窗移下获得较为完整的全局信息。这两种不同分辨率的谱图特征,彼此具有互补性,通过融合能更好对声音事件进行区分和识别。实验结果也证明,利用不同分辨率谱图特征融合的方法可以进一步提升系统的识别准确率,并在强噪声环境下表现优异。
其他文献
近年来语音合成技术发展迅速,并在越来越多的实际场景中得到了应用。基于大语料库的单元挑选与波形拼接方法和基于统计建模的参数合成方法是目前最为主流的两种语音合成方法
随着通信技术的飞速发展,不断增长的业务需求与有限资源之间的矛盾日益突出,如何匹配资源需求与资源分配成为研究的热点。未来的无线通信网络将会变成密集的、不规则的、自组
基于图像的信息隐藏技术是将秘密信息嵌入到普通的数字图像之中,实现隐蔽通信的目的。它在提供一种安全隐蔽通信方式的同时,也可能被不法分子所利用,影响到国家安全和社会稳
随着无线网络技术的迅速发展,基于无线网络的各种应用也层出不穷。利用IP网络传输话音信息的实时语音业务,由于其相对于传统电话业务强大的优势,得到了长足的发展。在无线网
伴随着网络和多媒体技术的发展,视频信息急剧膨胀。如何对海量的视频信息进行有效地检索和查询,已经成为目前迫切需要解决的问题。因此,基于内容的视频检索(Content-Based Vi
非合作单站无源定位跟踪技术以非合作的外辐射源作为照射源,具有高度的隐蔽性;其单站定位避免了多站定位复杂的信号处理过程和时间同步,具有更好的简便性和灵活性,因此成为现代电
为了确保UMTS(Universal Mobile Telecommunication System)技术的长期竞争力,3GPP于2004年底启动了长期演进(LTE)项目。该系统的一个目标是在上行链路能够提供比R6版本中的HS
在当今信息时代,高质量数码成像设备已得到普遍使用,生活中无处不在的网络又提供了大量的图片资源和视频分享网站,使得数字图像和视频在人们的日常生活中起到日益重要的作用