【摘 要】
:
说话人识别是一项根据语音中反映说话人生理和行为特征的语音参数,自动识别说话人身份的技术,属于生物特征识别技术的一种。近年来,说话人识别技术日趋成熟,由于语音这一媒介
论文部分内容阅读
说话人识别是一项根据语音中反映说话人生理和行为特征的语音参数,自动识别说话人身份的技术,属于生物特征识别技术的一种。近年来,说话人识别技术日趋成熟,由于语音这一媒介自身特殊的优势,正在迅速走向实用化,能广泛的应用于各行各业。本文以LPCC和MFCC特征参数作为识别的主要特征,还实验性地使用了基于小波变换的特征提取参数。运用矢量量化(VQ)、高斯混合模型(GMM)和人工神经网络(ANN)技术实现与文本无关的说话人识别,分别在15人、25人、41人大小的语音库上进行了识别实验。本文的主要工作有:(1)在特征提取部分,详细阐述了特征提取阶段的时域特征和LPCC、MFCC等倒谱特征的提取过程,并用不同于传统的短时傅里叶变换的小波变换进行了特征提取;(2)对各个系统的性能进行了研究。在VQ模型中,研究了码本尺度对系统性能的影响和具体选取问题;在GMM模型中,研究了高斯混合模型的阶数和训练语音的长度对系统性能的影响,并在大量实验的基础了,提出了对不同的训练语音长度给出了推荐的模型阶数;在神经网络中进行了尝试性的实验研究;分析了各系统的优缺点,为以后建立混合识别系统奠定了基础。最后介绍了各个系统的实现和实验,对结果进行了分析和比较,对各种参数的设置均给出了实验验证,对未来的研究工作进行了展望。
其他文献
科技引领生活,随着物联网的兴盛以及人们对家居理念的提升,家居智能化成为一种迫切需要,并变得越来越热门。智能家居运用计算机技术、通信技术等把家居环境中的一些设备整合
在计算机图形学和计算机视觉领域中,传统上都是用线性代数为数学框架对其进行研究。现在将要使用的一个新的数学系统是几何代数,尤其是五维共形几何代数,它统一了过去使用的
飞思卡尔半导体(Freescale)是全球最大的半导体公司之一,S12系列微控制器是其主推产品,广泛应用于汽车电子、智能家电及工业自动化等领域。该系列微控制器内置背景调试模块,
随着互联网的高速发展,Internet在我们的生活中扮演着越来越重要的角色,成为我们生活和工作中不可缺少的一部分。但是,因为WWW是一个虚拟的开放环境,因此任何人都能够在上面
伴随计算机三维视觉时代的到来,计算机运算能力的不断提高和新媒体产业的蓬勃发展,三维人脸建模和动画已成为计算机图形学领域的研究热点。今天,在通讯、人机交互、多媒体、娱乐
随着互联网的迅速发展,网络上的信息与日俱增,已成为人们获取信息的重要来源。但是,由于Web页面的无结构性、Web内容的多样性和Web页面的动态变化等原因,使人们很难准确的在W
自主计算(Autonomic Computing)是近年来逐渐兴起的一个研究领域。最早由IBM公司提出,主要是为了解决在Internet与计算机技术高速发展的今天,由于系统异构化、复杂化引起的人
生物特征识别是指利用人体所固有的生理或行为特征来进行个人身份鉴定的计算机技术。与人所持有的证件和所拥有的知识相比,生物特征具有与生俱来的唯一性和安全性。生物特征
随着嵌入式技术的普及和发展,嵌入式软件的开发规模也日益扩大,其开发周期越来越长开发成本也越来越高。为了在规定的成本和进度内完成项目,只有在开发过程中采用创新的方法
随着计算机的普及以及地理信息科学的发展,GIS因其强大的功能得到日益广泛和深入的应用。GIS网络分析是GIS的研究热点和难点,而最短路径问题是GIS网络分析中最基本和最关键的