论文部分内容阅读
语音不仅是人类日常交流中的重要工具,也是百万年来哺乳动物大脑进化的结果。这项复杂的功能是区分人类和其他动物的重要标志,包括了大脑对语言从声音到图形乃至抽象符号层面的神经信息处理。尽管我们每天都要接触这项功能,但是语音信息处理究竟发生在我们大脑中的哪里,以及这项功能是怎么发生的,这些问题我们依然没有完整的答案。近几十年来,心理学家和神经科学家对人类听觉的外围系统,初级脑体,以及听觉皮层都进行了大量的观察。这些结果,尽管还不能完全的解决大脑语音处理机制的问题,但已经让我们对这个课题有了长足的了解。另外一方面,随着电子通信业的出现和计算机技术的发展,人们开始可以从数字信号处理的角度来了解语音。语音发声所引起的物理振动可以使用电子设备采集,然后这些信息可以利用计算机来进行处理。数字语音信号的采集和处理成为了通信和电子工程领域的一个重要分支。语音识别,也就是把数字语音信号转化为文字的过程,是这个领域被研究的最多的也是最有难度的一个问题。尽管信号处理技术和计算机的性能在以日新月异的速度发展,利用数字方式来处理语音仍然比不过人脑对语音的处理。人脑处理口语语言远比计算机的处理要鲁棒。神经系统在这项功能中的优越性使得我们可以考虑在数字语音信号处理的过程中模拟人脑,从而提高系统的性能。在本文中,我们用算法化的方法来模拟听觉系统中的一些神经信息处理机制,并把这些模块应用到语音识别系统中来进行测试。我们首先使用非负矩阵分解(Non-negative matrix factorization, NMF)的方法从语音信号中学习基函数,然后将这些基函数作为听觉皮层神经元时频感受野(Spectral-temporal receptive fields, STRF)的计算模型。这些神经元可以作为语音信号的特征提取系统。我们的实验显示,这些特征对噪声的鲁棒性比传统语音识别应用中的特征要好。我们还使用了一个NMF的改进版本,正交非负矩阵分解(Orthogonal non-negative matrix factorization,ONMF),作为工具来提取语音中最重要的信息之一—-基频。实验显示,这种方法不仅对噪声有一定的鲁棒性,而且可以同时追踪多个基音成分。这些优点在很多方面都超过了传统方法。总之,本文介绍了一些具有原创性的方法,通过模拟人听觉系统来进行语音信号处理,取得了较好的实验结果。由于我们对听觉系统的了解依然不完善,这些方法在理论框架的改进下仍然会有提高的余地。同时,这些方法属于交叉学科的范畴,因此它们对推进语音信号处理和神经科学未来的发展也有一定的探讨。