论文部分内容阅读
语音处理的重点正逐步从独白语音处理转向多人会话语音处理。多人会话语音中出现了独白语音所没有的重要信息:说话人数、说话人角色、说话人关键程度、重叠语音等。这些信息对多人会话语音的语义理解和检索非常重要。如何有效分析海量的多人会话语音并从中提取上述重要信息,已成为目前语音处理领域的研究热点。本文以多人会话语音作为研究对象,重点关注多人参与的讨论会语音、高峰论坛语音、领导人的新闻发布会语音及演讲语音;主要研究说话人谱聚类、关键说话人估计、关键说话人同源确认、说话人角色聚类、重叠语音检测等问题,旨在从海量多人会话语音中提取更多的说话人信息,拓展目前语音处理系统的功能。本文的主要工作及贡献如下:(1)针对当前谱聚类方法对信源空间分布描述不够准确,提出一种基于模型距离的说话人谱聚类算法。利用大量说话人无关语音样本建立一个通用背景模型,并在此通用背景模型的基础上为每个语音段训练一个高斯混合模型,最终采用各语音段的高斯混合模型之间的距离构建亲和矩阵,在模型层实现说话人谱聚类。采用新闻联播和论坛、访谈语音作为实验数据,实验结果表明:所提出的算法与目前基于特征矢量距离的说话人谱聚类算法相比,F值提高了6.38%,运算速度约为后者的11.72倍。(2)在(1)的基础上,通过分析说话人语音,提出一种基于多特征组合的方法估计多人会话语音中的关键说话人。首先,对多个特征进行定义,并分析这些特征对关键说话人与其他说话人的差异;然后,提取四个有效的音频特征,构造一个加权判决函数;最后,采用遗传算法对各个特征权重系数进行优化获得最佳加权系数。该方法无需训练复杂的分类器,有效实现多人会话语音中的关键说话人估计。采用三种不同类型的多人会话语音进行评估,实验结果表明:采用优化后的特征权重系数估计关键说话人得到的平均正确率为93.3%,比文献报道的主流方法提高了9.7%,比优化前提高了4.1%。(3)对关键说话人语音进行同源确认,目的是去除被误判为关键说话人的非关键说话人语音,以及找回被误判为非关键说话人的关键说话人语音。为此提出深层说话人矢量的概念,并阐述了深层说话人矢量的构建方法;然后利用深层特征对关键说话人进行同源确认。同源确认分为三个阶段:1)利用浅层特征在被初判为关键说话人的语音里找出最有可能的关键说话人语音;2)利用这些关键说话人语音进行深度学习,训练深层特征和深层说话人矢量;3)使用深层说话人矢量对关键说话人进行确认。最终关键说话人同源确认的错误接受率为1.28%,错误拒绝率为4.79%,该算法能有效地将关键说话人确认出来。(4)在(2)的基础上,为了有效分析不同类型多人会话语音中的说话人角色个数及各角色的说话人语音,定义并提取各个说话人的角色特征;然后,借鉴于半监督学习因为带标签的训练数据很难得到,从而利用其他任务的数据、模型、或者没有标签的数据来提升算法的性能,提出利用待聚类音频文件数据与其它音频文件数据共同建立图模型,并采用该图模型上的测地距离来衡量单个音频文件中说话人样本之间的相似度,进而提升无监督聚类的性能;接着,针对层次聚类的不足,提出一种利用类内距离控制类间合并的说话人角色聚类算法。最后,采用四种不同类型多人会话语音对说话人角色聚类方法进行性能评估,实验结果表明:该方法能有效解决多说话人角色聚类问题,为后续说话人检索、说话人高层语义信息提取奠定坚实基础。(5)为了消除重叠语音对多人会话语音的说话人分割聚类所产生的负面影响,针对目前重叠语音检测方法所采用特征的不足,阐述短时语音分形维数特征的提取方法,分析分形维数对重叠语音与单人语音的区分性能,并提出一种基于分形维数的重叠语音检测方法。实验结果表明:美尔频率倒谱系数特征与分形维数特征的结合能够达到最高81%的重叠语音辨识率,优于其它传统特征的辨识率。综上所述,本文以多人会话语音作为研究对象,对多人会话语音的说话人谱聚类、关键说话人估计及同源确认、说话人角色聚类、重叠语音检测等问题进行了深入研究,并取得了一些有益的研究成果,为进一步提高多人会话语音分析与检索系统的性能奠定了基础。