基于听觉神经原理的语音信号处理

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:yuyuan0127
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音不仅是人类日常交流中的重要工具,也是百万年来哺乳动物大脑进化的结果。这项复杂的功能是区分人类和其他动物的重要标志,包括了大脑对语言从声音到图形乃至抽象符号层面的神经信息处理。尽管我们每天都要接触这项功能,但是语音信息处理究竟发生在我们大脑中的哪里,以及这项功能是怎么发生的,这些问题我们依然没有完整的答案。近几十年来,心理学家和神经科学家对人类听觉的外围系统,初级脑体,以及听觉皮层都进行了大量的观察。这些结果,尽管还不能完全的解决大脑语音处理机制的问题,但已经让我们对这个课题有了长足的了解。另外一方面,随着电子通信业的出现和计算机技术的发展,人们开始可以从数字信号处理的角度来了解语音。语音发声所引起的物理振动可以使用电子设备采集,然后这些信息可以利用计算机来进行处理。数字语音信号的采集和处理成为了通信和电子工程领域的一个重要分支。语音识别,也就是把数字语音信号转化为文字的过程,是这个领域被研究的最多的也是最有难度的一个问题。尽管信号处理技术和计算机的性能在以日新月异的速度发展,利用数字方式来处理语音仍然比不过人脑对语音的处理。人脑处理口语语言远比计算机的处理要鲁棒。神经系统在这项功能中的优越性使得我们可以考虑在数字语音信号处理的过程中模拟人脑,从而提高系统的性能。在本文中,我们用算法化的方法来模拟听觉系统中的一些神经信息处理机制,并把这些模块应用到语音识别系统中来进行测试。我们首先使用非负矩阵分解(Non-negative matrix factorization, NMF)的方法从语音信号中学习基函数,然后将这些基函数作为听觉皮层神经元时频感受野(Spectral-temporal receptive fields, STRF)的计算模型。这些神经元可以作为语音信号的特征提取系统。我们的实验显示,这些特征对噪声的鲁棒性比传统语音识别应用中的特征要好。我们还使用了一个NMF的改进版本,正交非负矩阵分解(Orthogonal non-negative matrix factorization,ONMF),作为工具来提取语音中最重要的信息之一—-基频。实验显示,这种方法不仅对噪声有一定的鲁棒性,而且可以同时追踪多个基音成分。这些优点在很多方面都超过了传统方法。总之,本文介绍了一些具有原创性的方法,通过模拟人听觉系统来进行语音信号处理,取得了较好的实验结果。由于我们对听觉系统的了解依然不完善,这些方法在理论框架的改进下仍然会有提高的余地。同时,这些方法属于交叉学科的范畴,因此它们对推进语音信号处理和神经科学未来的发展也有一定的探讨。
其他文献
随着网络和信息技术的发展,数据传输与交换成为研究的热点。XML具有开放性、简单性、高可扩展性、操作性、自描述性的优点,XML将逐渐成为数据传输与交换的一种新的标准与格式。
随着本体数量的不断增加,本体的重用和共享逐渐成为亟待解决的重要问题。在不同本体间进行映射是解决本体相互协作问题的实质任务。首先,论文介绍了课题的研究背景,总结了当
图像增强是图像处理一大主要任务,其主要作用是改善图像的视觉效果,同时也为图像识别、图像理解等任务服务。在图像处理中,图像增强技术对于提高图像的质量起着重要的作用。
随着我国加入WTO,银行与国际金融的接轨,外汇存兑尤其是美元柜台交易业务已成为各银行必须的业务。然而美元鉴伪机具很少,可以信赖的美元鉴伪机具更是微乎其微。再加上造假者
近年来,随着微电子技术和无线通信技术的不断发展,无线体域网的应用价值愈发明显,引起了国内外广泛的关注。与一般无线传感器网络以物理环境为监控对象不同,无线体域网以人体
随着信息技术的发展,数据呈爆炸式增长并日益分散,如何有效、安全地存储和管理这些海量数据,这给企业带来了巨大的挑战。为解决上述问题,网络存储技术应运而生。网络附加存储
用户界面是人机交互的重要组成部分,它是用户和计算机进行沟通和交互的桥梁。随着计算机和网络资源的不断发展,人们对用户界面的要求也越来越高。然而,标记语言,编程语言,界
服务质量(QoS)问题是传统网络中非常重要的技术之一,由于网格环境的复杂性和特殊性,要保证一定的服务质量需要解决很多难题。随着网格技术的发展,网格服务质量问题成为一个新
学位
云存储是在云计算的概念上延伸和发展出来的一个新的概念,是一种新兴的网络存储技术。云存储利用集群应用和分布式文件系统等软件,将网络中大量类型不同、容量不同的存储设备