论文部分内容阅读
动态贝叶斯网络(DBN)是以概率网络为基础,综合原来的静态网络结构和时间信息而形成的具有处理时序特征数据能力的新的随机模型,具有可解释性、非线性、可扩展性等特性,能较容易的融合新的知识,具有对事物进行完整的表达、推导和学习的能力。DBN本身的理论也尚未完全成熟,现在的应用也非常少,但是它的优越特性以及模型的一般性,已经引起了越来越多的研究者的关注,尤其是在时序数据处理领域。本文针对动态贝叶斯网络本身的理论框架及其在说话人识别中的应用,主要做了下面这些工作: 本文系统地研究和实现了动态贝叶斯网络框架内所必须具备的基础算法,包括静态概率网络下的拓扑转换、交叉树的生成、以及全局概率扩散的算法;同时研究了动态网络推导中的边界算法和邻接算法,实现了动态网络推导的前向后向遍历算法;本文还讨论了DBN中的参数学习和结构学习的几种情况,实现了用于语音处理中的拓扑已知,观测未完全的EM算法。 本文对DBN和HMM进行了拓扑结构上的对比,在介绍几种典型的HMM基础上,讨论了DBN和HMM互相转换的可能性以及如何进行转换的过程,同时比较了两种方法在推导和学习上的差别以及各自算法复杂度的差别,最后给出了实验的证明,说明DBN为什么适合处理语音这类具有很强时序性,而且数据量大的数据集。 本文提出了基于DBN的说话人识别框架,论述了如何通过DBN,对说话人识别的应用进行系统的训练和测试最后,我们通过YOHO语料集的实验测试,把我们的方法跟常规的向量量化(VQ)、单高斯(Single Gaussion)、高斯混合模型(GMM)、隐马尔可夫模型(HMM)进行对比,说明了我们的框架在说话人识别中的优越性,同时也说明了DBN用于说话人这个特定领域的可行性。 最后,本文提出了在数据层、特征层和决策层上,进行基于DBN的信息融合框架。特别的,我们把基音信息和声学特征进行了多种方式的融合,相比于常规的把基音信息利声学特征进行简单组合的方法,性能得到了很大的提高。 尽管作者一直致力于动态贝叶斯网络的研究,但本文的工作仅仅是一个初步,仍有很多东西值得继续探讨。后续工作可以包括研究DBN的近似推导、研究DBN的拓扑学习方法、研究基于DBN的多层次融合方法、多模态融合方法、研究DBN内嵌分类器等等。