论文部分内容阅读
语音技术是2000年至2010年间信息技术领域的十大重要科技发展技术之一。语音中所包含的最重要的信息是说话人所要表达的语义信息,同时语音也间接传递了说话者的个人身份信息,比如有关语种、心情、性别、年龄等,说话人识别技术在电话金融交易、网络安全、多媒体数据检索等领域获得了广泛的应用。现有的说话人识别技术主要基于底层的声学参数信息特征,发展基于高层信息及其与声学参数融合的识别技术是未来的发展方向,但目前仍存在一定的技术难点。本文对此进行了尝试,从声学参数、韵律参数以及字词搭配等层面对说话人识别问题进行了深入研究,主要研究工作和成果如下: 1、在基于声学参数的说话人识别研究上,本文基于传统的GMM-UBM系统和GLDS-SVM系统,将训练和测试的每段语音都通过自适应的方法得到一个混合高斯模型,计算混合高斯模型之间的马氏距离。通过说话人模型、测试模型、UBM模型之间的三角形三条边和三个夹角来识别说话人,将三条边和三个角作为6维的特征矢量与GLDS的超矢量结合,在采用支持向量机作为识别模型的情况下,相对于传统的GMM-UBM系统,能够取得等错误率16%的相对下降。 2、在基于韵律参数的说话人识别研究上,本文采用勒让德多项式的方法对能量包络和基频包络进行展开,把韵律特征形成一个13维的韵律参数,然后采用GMM-SVM的方法进行识别。进一步,采用得分域的融合互补,将基于韵律参数的说话人识别系统和基于声学参数的系统进行融合,融合后的等错误率相对声学参数的系统下降25%。 3、在基于说话人字词搭配的说话人识别研究上,本文采用音素搭配的n-gram在一句话中出现的概率来作为支持向量机的输入特征参数,为了解决数据稀疏性问题,本文采用KPCA的方法在降维的同时提高特征参数的区分性,在采用三个语种并行识别的情况下,能够做到的等错误率为17.58%,如果和声学参数以及韵律参数的系统进行融合,最终能够取得6.1%的等错误率。 4、本文在传统的声学参数研究的基础上,针对不太成熟的韵律参数、字词搭配的关系进行了研究,从实验的结果来看,各个层面的语音参数都对说话人识别的性能具有帮助,并且具有比较高的性能互补作用。