论文部分内容阅读
自动说话人识别(Automatic SpeakerRecognition,简称ASR)又称为声纹识别,是语音信号处理中的重要组成部分,也是作为一种重要的生物信息而被广泛研究的热点之一。说话人识别是指通过一个说话人的语音而识别出说话人身份的过程,根据最终完成任务的不同,说话人识别又分为说话人确认(Speaker Verification)和说话人辨识(Speaker Identification)两种。由于在实际的说话人识别应用场景会引入多种不同的录音设备以及传输设备,使得说话人识别系统的鲁棒性不够高,严重影响了它的实用价值。这个问题,在说话人识别领域又成为多信道问题,是相关研究人员的工作重点。本课题将详细论述文本无关条件下说话人识别技术的基本原理以及研究现状,在详细论述和设计说话人识别技术中主流的GMM-UBM系统建模方法和系统的同时,本文也将阐述说话人识别领域中最新的基于支持向量机(Support Vector Machine)的建模原理以及系统设计。针对上面提到的说话人识别系统中严重影响系统性能的信道不匹配现象,本文将从特征域,模型域以及得分域对信道补偿技术进行详细的论述,并对其中的一些技术提出自己的想法和改进意见。本课题在剑桥大学开发的源码HTK语音识别工具的基础上构建说话人识别确认系统,本系统对比了在特征域、模型域等多种不同技术的系统性能,并最终采用了PLP感知线性预测静态及动态参数、RASTA滤波、特征映射、特征变换、自适应模型、得分归一化等技术使系统达到了优良的性能,达到了本领域中公布的系统性能中的前列。本课题研究主要针对电话信道下的说话人识别确认系统,但本课题所涉及的许多技术及思想对于其他条件下的说话人确认系统、说话人辨认系统、乃至语音识别系统都有参考、借鉴及应用价值。