论文部分内容阅读
随着人类数字化生活需求的增加和多媒体时代的来临,人们越来越渴望打破过去传统的人机交互模式,寻找一种更加自然、友好、稳定的交互方式。近期iphone4s的Siri语音控制功能的推出再一次引领了语音识别的研究热潮。本文正是在这种背景之下,通过构建基于Windows的语音控制系统作为声纹识别的具体应用环境,将声纹识别和语音识别结合起来,实现一个具有声纹识别功能的分权限语音控制系统。同时将本文的研究重心放在声纹识别相关技术的研究中,以寻求一种具备声纹识别功能的人性化交互模式。本文的具体工作如下:本文首先介绍了基于GMM(Gaussian Mixture Model)的声纹识别和基于Speech SDK(Software Development Kit)的语音控制的关键技术。针对传统GMM和GMM-UBM(Universal Background Model)受训练样本量的制约和说话人被强制趋于统一分布的弱点,本文提出了基于区分性GMM的建模方法和区分性识别方法,以增加说话人之间的差异性为出发点,使模型能够更好的拟合说话人特征矢量的空间分布。同时将建模过程中衍生的两个具有区分性的子UBM作为特征空间性别分类器,来划分特征空间和模板库,从而提高系统的识别率和响应速度。其次本文针对传统的K-means聚类算法只具备局部寻优能力和对初始聚类中心及噪声点敏感的弱点,本文提出了基于密度和方差的加权距离聚类、基于模拟退火思想的全局优化聚类算法应用到声学特征类的形成。通过改进的聚类算法使呈现椭圆形分布的高维语音数据能够更精确的形成声学特征类,使各阶单高斯分量承担更精确的数据,进而提高系能性能,同时此算法也可被推广到其他领域中。最后本文基于区分性GMM和Speech SDK语音识别引擎及Windows API(Application Program Interface)函数和消息响应机制的基础之上,构建了具有声纹识别功能的分权限语音控制系统,完成了具备声纹识别功能的人机交互的目标。