论文部分内容阅读
随着社会的发展,安全问题日趋重要,用生物特征并结合计算机技术进行安全验证是当今的热门课题,声纹识别技术是生物识别技术的一种,与其它生物识别技术相比,声纹识别具有更为简便、准确、经济及可扩展性良好等众多优势,可广泛应用于安全验证、控制等方面。特别是在公安工作方面。
声纹识别技术发展到现在已经有了相当的成果,然而到了实际应用方面常常受到很大的限制,最主要的影响是复杂的实际环境,它常常使在实验室环境下有很高识别率的识别系统在实际工作中却远远达不到预期的效果。
本文的工作集中于如何在公安侦察工作当中应用声纹识别技术。公安侦察工作当中涉及到话音的有很多,其中一个就是大量的电话录音,本文探讨的是其中的与文本无关的说话人确认技术。公安侦察工作中的电话录音有这样的一些特点:话音大部分是对话语音,也有部分是铃声或电信台的录音、合成音;语音背景相当复杂,噪音比较多。
根据这些特点,本文主要探讨如何在现有算法的基础上实现与文本无关的说话人确认。其中比较关键的是语音噪音的处理,语音分割、说话人聚类以及说话人确认。主要内容包括:
第一,为了能够实现语音的分割,使用一种基于计盒维数静音检测以及贝叶斯信息准则(BIC)的语音分割算法。通过拟合静音阈值,设计和实现了一个健壮的基于计盒维数的静音检测算法,能够快速准确的检测出静音语音段,得到候选分割点;在此基础上,使用BIC准则对候选分割点进行确认和放弃,实现语音分割。
第二,作者实现了基于BIC的说话人分层聚类算法,并且在聚类的停止条件、λ参数取值等问题上提出自己的建议。并且采用聚类结果进一步提高了语音分割的性能。
第三,作者实现了基于高斯混合模型(GMM)的说话人识别算法,在说话人自适应、识别阈值选取等问题上进行了探讨和改进的工作,并用该算法对对话语音进行说话人识别,取得较好的识别效果。
第四,作者实现了一个研究性的对话语音的说话人确认系统,该系统可以具有语音采集、特征提取、语音库建立、语音分割、说话人确认等功能。