基于多模态融合的屏幕内外语音分离算法研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:z445786864
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音是人类传递信息最重要的途径之一,但现实中的语音信号经常被其他人声混杂或被环境噪声干扰,因此语音分离作为提取混合语音信号中独立语音源的任务,一直以来都是信号处理领域重要的研究方向之一。语音分离任务来源于“鸡尾酒会问题”,常被用作其他语音应用的前置预处理操作,对自动语音识别、助听器开发与人机交互等应用有着重要作用。
  传统上的语音分离技术多数着眼于单模态语音信号的处理,但随着多媒体应用与信息技术的发展,近年来语音信号与说话人视频信号经常同时进行处理。由于视频信号基本不受声学环境的影响,而且说话人的视觉信息如面部表情与唇部动作等都与语音信号有很强的关联性,运用多模态融合的方法进行语音分离已成为一个新的研究趋势。在同声传译、记者采访等场景中,通常视频信号中只有一个说话人,而音频信号是两个或多个说话人语音信号的混合,则将与视频中说话人有关的语音信号称为屏幕内语音,与视频中说话人无关的语音信号称为屏幕外语音。本论文针对以上观点,在大量阅读文献与研究已有方案的基础上,运用深度学习技术提出了两套基于多模态融合的屏幕内外语音分离算法,本论文的主要研究内容如下:
  (1)本论文首先提出了一个基于音视频融合与残差补全的屏幕内外语音分离算法。该算法使用一个屏幕内U-Net对混合语音语谱图进行处理,端到端的生成预测屏幕内语音语谱图。同时使用一个基于CNN的音视频特征融合网络进行音视频特征提取与融合,并将融合后的音视频融合特征与屏幕内U-Net结合,利用音视频融合信息对语谱图预测进行辅助。为提升屏幕外语音分离效果,该算法还创新性地引入了一个残差U-Net,通过生成残差语谱图对屏幕外语音语谱图进行补全,消除屏幕内、外语音频率叠加、扰动所产生的残差。该算法在VoxCeleb2数据集上进行了不同角度的实验,验证了算法的先进性与可靠性。
  (2)本论文还提出了一个结合运动信息的音视频融合屏幕内外语音分离算法。该算法使用语谱图预测U-Net对混合语音语谱图进行处理,分别预测屏幕内与屏幕外语音的语谱图。同时使用CNN与BLSTM结合的图像-光流融合网络对唇部图像与运动信息进行特征提取与融合,并将唇部图像-光流融合特征输入到预测U-Net中,对语谱图预测提供信息辅助。该算法在基于CNN的多模态特征融合网络的基础上引入了BLSTM,对图像与运动信息中的时序特征进行提取。同时该算法并没有使用完整的视频信息,而是使用唇部区域的灰度图像与光流信息,充分利用唇部区域视频信号与语音信号的紧密关联,在消除冗余信息的同时确保关键信息的保留。该算法在VoxCeleb2数据集上进行实验,验证了其在屏幕内外语音分离任务中的先进性与不同条件下的鲁棒性,同时还研究了该算法中各部分结构对整体结果的影响。
其他文献
群智能优化算法起源于生物仿生学,起初受启发于各种生物的种种生存和活动行为。自从出现以来,群智能优化技术作为一项重要的优化技术,在工业生产,工程应用和社会生活中都得到了广泛使用,并随之不断进行改进和创新。作为近几年新提出的算法,狮群优化算法具有优秀的机制设计和较大的发展潜力,不失为一种值得深入研究的算法。  在行为模式机制上,狮群算法对草原狮群的围猎进行数学模拟。划分种群为狮王,成年母狮,幼狮三类个
人类交流过程中,80%的信息来源于肢体语言,准确识别人体的动作对改善人机交互有着重要意义。骨骼数据拥有时间和空间两个维度的信息,两个维度之间伴随着共现特征,如何更好的提取和利用时空特征存在很大的挑战。在获取数据的过程中,还存在多视角问题,同一个动作可能出现完全不同的表现,不仅会增加模型构建的难度,同时还存在模型识别率低的问题。  针对骨骼动作识别时空特征提取难的问题,本文提出一种基于图注意力网络的
学位
随着服务机器人在家庭情景中担任重要的角色,自然的人机交互成为影响用户满意度和人机共存舒适度的关键因素之一。如何在人机交互的过程中注重用户情感的识别、并在理解用户情感状态的基础上,让机器人在复杂多变的家庭环境中提供与情感相匹配的舒适度良好的服务,受到研究学者的广泛关注。由于人类情感的表达是一个复杂连续的过程,目前针对人类情感的识别重点逐渐从离散情感识别过渡到连续情感识别,同时单一模态的连续情感识别存
下三角非线性系统是一类被广泛研究的系统,许多工程问题,例如化学反应器系统、机器人机械臂系统及倒立摆系统等,都可以建模为此类系统。在建模过程中,时滞及输入饱和现象往往是不可避免的,它们会影响系统的正常运行,尤其对于下三角非线性时滞系统,输入饱和所带来的不良影响还没有被很好地解决。因此,研究具有输入饱和的下三角非线性时滞系统具有重要的实际意义。然而,已有成果中大多都是运用反步设计方法进行研究的,设计过
近年来,倾转旋翼无人机因为既有旋翼垂直起降的优势、又有固定翼远距离快速飞行能力,逐渐成为无人机领域的研究热点。现有倾转旋翼无人机机构形式多为在固定翼无人机外部添加多副旋翼,增加了无人机自身的重量。同时倾转旋翼无人机在飞行过程中,旋翼下洗流作用在固定翼上表面,使固定翼上下表面压力差变小,降低了固定翼的升力。  本文提出的两栖倾转翼无人机弥补了倾转旋翼的缺陷,有效避免了旋翼产生的下洗流对固定翼造成的影
反馈非线性系统的研究是控制理论核心内容之一,已被应用到工业、国防及航天等领域,吸引了国内外学者的广泛关注.很多实际工程系统,都可以经过适当的变量替换,建模并转化为反馈非线性系统.为了更好的满足实际系统性能需求,针对具有信息约束的控制研究是非常有意义的.在本文中,信息约束可细分为量化约束、状态约束以及输出约束.它们具有节省通信资源、提高系统安全指数等优点.目前,虽然针对具有信息约束反馈非线性系统的控
交通场景复杂多变,为汽车配备安全可靠的辅助驾驶系统可以大大降低交通事故的发生,提高城市交通运行效率。有经验的驾驶员因选择性注意机制,可以快速定位场景中显著区域,过滤掉冗余信息,抽取与驾驶活动相关的关键信息。因此模仿人类的选择性注意机制,预测交通场景下的显著性区域或者目标,对辅助驾驶系统的发展具有重要的研究意义。本文对复杂交通场景下的驾驶员注意力预测方法展开研究,旨在预测驾驶员的注意力区域或者检测到
学位
近年来,随着人工智能的不断发展以及人们对公共场合安全问题的重视,行人再识别任务成为人工智能领域研究的热点。行人再识别任务,是指判断从多个视野不重叠的摄像头出现的行人图像是否为同一行人,主要通过行人的底层视觉特征与高层不变属性特征进行判断,而不需要行人的主观配合,有着重大的研究价值。另一方面,在海量数据中准确高速的找出目标人物并辨别身份对安防等任务有着重要的应用价值,同时行人再识别的研究对于相册聚类
相比于在平坦地面具有更好运动效果的轮式和履带式机器人,腿足式机器人能够适应更复杂的地形,进行更灵活的姿态控制,有效跨过或躲避障碍物,能够应用到复杂环境的探索、搜救、运输等多方面领域中。四足机器人凭借相对简单的结构、灵活的运动效果、出色的稳定性能和优秀的动态能力等优势,从腿足式机器人中脱颖而出。传统的四足机器人控制方法一般会采用模块化控制器,但模块化控制器设计难度较大,并且需要耗费大量时间进行参数调
智能驾驶汽车通过多种传感器获取信号,感知车辆周围环境以及可能发生的危险,从而做出驾驶决策。与其他信号相比,视频信号包含丰富的语义信息,并且采集设备成本低廉,采集过程方便;然而视频信号也具有背景复杂、运动模糊、目标遮挡等问题,给交通场景理解带来特殊的挑战。本文针对交通场景风险估计问题,提出了对交通风险等级划分的原则,并构建了一种对行车视频中交通场景的风险性进行判断的方法。本文首先利用YOLO算法与D
学位