多人会话语音中的说话人角色分析

来源 :华南理工大学 | 被引量 : 0次 | 上传用户：jianzhang5555

【摘要】

：

语音处理的重点正逐步从独白语音处理转向多人会话语音处理。多人会话语音中出现了独白语音所没有的重要信息:说话人数、说话人角色、说话人关键程度、重叠语音等。这些信息

【作者】

：

李威

【出处】

：

华南理工大学

【发表日期】

：

2015年期

【关键词】

：

说话人角色说话人谱聚类关键说话人同源确认重叠语音

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

语音处理的重点正逐步从独白语音处理转向多人会话语音处理。多人会话语音中出现了独白语音所没有的重要信息:说话人数、说话人角色、说话人关键程度、重叠语音等。这些信息对多人会话语音的语义理解和检索非常重要。如何有效分析海量的多人会话语音并从中提取上述重要信息,已成为目前语音处理领域的研究热点。本文以多人会话语音作为研究对象,重点关注多人参与的讨论会语音、高峰论坛语音、领导人的新闻发布会语音及演讲语音;主要研究说话人谱聚类、关键说话人估计、关键说话人同源确认、说话人角色聚类、重叠语音检测等问题,旨在从海量多人会话语音中提取更多的说话人信息,拓展目前语音处理系统的功能。本文的主要工作及贡献如下:(1)针对当前谱聚类方法对信源空间分布描述不够准确,提出一种基于模型距离的说话人谱聚类算法。利用大量说话人无关语音样本建立一个通用背景模型,并在此通用背景模型的基础上为每个语音段训练一个高斯混合模型,最终采用各语音段的高斯混合模型之间的距离构建亲和矩阵,在模型层实现说话人谱聚类。采用新闻联播和论坛、访谈语音作为实验数据,实验结果表明:所提出的算法与目前基于特征矢量距离的说话人谱聚类算法相比,F值提高了6.38%,运算速度约为后者的11.72倍。(2)在(1)的基础上,通过分析说话人语音,提出一种基于多特征组合的方法估计多人会话语音中的关键说话人。首先,对多个特征进行定义,并分析这些特征对关键说话人与其他说话人的差异;然后,提取四个有效的音频特征,构造一个加权判决函数;最后,采用遗传算法对各个特征权重系数进行优化获得最佳加权系数。该方法无需训练复杂的分类器,有效实现多人会话语音中的关键说话人估计。采用三种不同类型的多人会话语音进行评估,实验结果表明:采用优化后的特征权重系数估计关键说话人得到的平均正确率为93.3%,比文献报道的主流方法提高了9.7%,比优化前提高了4.1%。(3)对关键说话人语音进行同源确认,目的是去除被误判为关键说话人的非关键说话人语音,以及找回被误判为非关键说话人的关键说话人语音。为此提出深层说话人矢量的概念,并阐述了深层说话人矢量的构建方法;然后利用深层特征对关键说话人进行同源确认。同源确认分为三个阶段:1)利用浅层特征在被初判为关键说话人的语音里找出最有可能的关键说话人语音;2)利用这些关键说话人语音进行深度学习,训练深层特征和深层说话人矢量;3)使用深层说话人矢量对关键说话人进行确认。最终关键说话人同源确认的错误接受率为1.28%,错误拒绝率为4.79%,该算法能有效地将关键说话人确认出来。(4)在(2)的基础上,为了有效分析不同类型多人会话语音中的说话人角色个数及各角色的说话人语音,定义并提取各个说话人的角色特征;然后,借鉴于半监督学习因为带标签的训练数据很难得到,从而利用其他任务的数据、模型、或者没有标签的数据来提升算法的性能,提出利用待聚类音频文件数据与其它音频文件数据共同建立图模型,并采用该图模型上的测地距离来衡量单个音频文件中说话人样本之间的相似度,进而提升无监督聚类的性能;接着,针对层次聚类的不足,提出一种利用类内距离控制类间合并的说话人角色聚类算法。最后,采用四种不同类型多人会话语音对说话人角色聚类方法进行性能评估,实验结果表明:该方法能有效解决多说话人角色聚类问题,为后续说话人检索、说话人高层语义信息提取奠定坚实基础。(5)为了消除重叠语音对多人会话语音的说话人分割聚类所产生的负面影响,针对目前重叠语音检测方法所采用特征的不足,阐述短时语音分形维数特征的提取方法,分析分形维数对重叠语音与单人语音的区分性能,并提出一种基于分形维数的重叠语音检测方法。实验结果表明:美尔频率倒谱系数特征与分形维数特征的结合能够达到最高81%的重叠语音辨识率,优于其它传统特征的辨识率。综上所述,本文以多人会话语音作为研究对象,对多人会话语音的说话人谱聚类、关键说话人估计及同源确认、说话人角色聚类、重叠语音检测等问题进行了深入研究,并取得了一些有益的研究成果,为进一步提高多人会话语音分析与检索系统的性能奠定了基础。

其他文献

星载多模式合成孔径雷达成像技术研究

星载合成孔径雷达(Synthetic Aperture Radar,SAR)作为一种高分辨率的微波遥感手段,在军事和民用方面都有重要的应用价值。当前,不同的应用对SAR成像的分辨率、测绘带宽、极

学位

星载合成孔径雷达多模式成像扫描模式聚束模式渐进扫描模式滑动聚束模式成像算法性能分析参数设计区域观测全极化机械扫描

SAR/ISAR目标电磁特征提取及应用研究

雷达是以电磁波为载体探测目标电磁特性的微波遥感设备。不同于传统光学等其它遥感设备,雷达具有全天时、全天候、作用距离远和穿透力强等优势。但对于熟悉可见光数据和摄影

学位

电磁特征提取目标检测超分辨极化分解干扰抑制

小学校长实施学校个性化管理的策略探讨

素质教育与新课程的共同推进,对于小学管理提出了许多新的要求,作为学校的领导核心,小学校长不仅是教育教学活动的组织者,也是学校管理的主要决策者。如何在小学管理引入个性

期刊

小学校长个性化管理策略

理念和角色回归:从审委会性质谈审委会改革

在中国司法环境和制度还不成熟的背景下,审委会在一定程度上解决了我国司法实践中诸如法官能力上的缺陷、裁判尺度不统一等问题。然而,审委会作为一种有着中国特色的制度存在

期刊

审委会性质功能理念回归改革

基于UG三维软件的一种小型吊篮式自动移栽机设计

随着我国农业机械化水平的提高,育苗移栽技术因其能使作物增产、减轻劳动量而被广大农民所接受,得到了很大的发展。然而我国现阶段与之配套的移栽机械水平却是高低分化。传统

期刊

全自动移栽机UG自动送苗数字化设计

多人会话语音中的说话人角色分析

其他学术论文