基于深度神经网络的人声分离算法的研究与应用

来源 :电子科技大学 | 被引量 : 0次 | 上传用户：rewyuh

【摘要】

：

【作者】

：

常雪姣

【机构】

：

电子科技大学

【出处】

：

电子科技大学

【发表日期】

：

2021年01期

【关键词】

：

人声分离卷积自编码器 UNET 神经网络

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近年来,有关盲源分离的研究越来越多,盲源分离也被应用到生产生活的方方面面。从1953年Colin Cherry提出的“鸡尾酒会问题”,到如今基于神经网络的语音分离算法模型,盲源分离技术也在逐步向更广更深的方向发展。在本文中,作者将选取音乐场景,提取其中的人声信号。目前,已有包括全连接神经网络、卷积自编码器和循环神经网络在内的人声分离模型算法。本文基于卷积自编码器人声分离模型进行改进,提出了基于全卷积神经网络的人声分离模型,简称WAVEUNET。WAVEUNET首先通过傅里叶变换将混合信号的时间序列转换为时频图,随后,将生成的时频图经过分离模型分离出人声信号的时频掩膜,而伴奏信号的时频掩膜则通过混合音频减去人声时频掩膜得到。最后将时频掩膜乘以时频图,得到分离后的人声信号频谱和伴奏声音频谱,再利用逆傅里叶变换得到分离后的人声和伴奏声音。其中分离模型应用了UNET网络的特点,在相同深度的编码器和解码器之间增加一个融合层,减少原本模型池化过程中损失的数据。最后,本文通过实验,从多个方面验证WAVEUNET的分离性能。在不同训练目标,即理想二值掩膜和理想浮值掩膜影响下,理想浮值掩膜的分离性能将优于理想二值掩膜。其次,同等层深情况下,WAVEUNET具备更好的分离效果,不同层深情况下,自编码器网络随着层深增加预测能力下降,WAVEUNET随着层深增加预测能力增加。WAVEUNET的分离性能与目前已有的人声分离模型算法对比,体现出较好的分离水准,并与此同时,表现出模型简单、速度快、权重数目少等优点。

其他文献

复杂网络中的重要节点识别及其在证据理论中的应用

复杂网络作为物理学中新兴的分支,随着互联网的兴起以及数据的爆炸性增长而受到国内外众多学者的关注。复杂网络是基于图论的一门交叉型应用学科,截至目前已经有较长的研究历史。1988年小世界特性的发现使得对复杂网络的关注上了一个新台阶,而无标度特性的发现更是对其的发展产生了深远的影响。不同于随机网络或人工网络的是,现实世界中的网络的非同质性决定了节点背后所表示的对象的重要性并不是平均分布的。而是有影响的节

学位

复杂网络重要节点挖掘证据理论图神经网络证据聚类

基于集成学习的多源人物网页分类方法研究

通过互联网开展人物画像生成、人物关系分析、人物行为预测等以人物属性、行为提取与分析为核心的研究已成为网络信息挖掘领域的研究热点,预先开展人物网页精准分类能够有效降低工作量,减少噪声,提高分析效率。现有的网页分类方法的着眼点多集中于网页的领域进行分类,例如“艺术”、“商业”、“体育”等,而对于人物网页分类研究相对较少。本文主要针对人物网页分类问题开展研究,在研究分析现有网页分类方法基础上,根据人物网

学位

网页分类神经网络机器学习集成学习

网络文件下载信息搜索及追踪系统

互联网兴起至今不过30年,已经发展成为一个庞然大物,互联网提供的服务从最初的文本浏览到今天的各种纷繁的功能业务,其核心都避不开文件的传输即下载,文件下载在为用户带来便利的同时也带来了在线盗版文件下载。而且近年来随着我国网络基础设施的快速发展,网速出现了飞跃性的进步,盗版文件的传播也变得更加快速,盗版文件的下载出现了传播量大、有效时间短的特点。基于以上因素,本文提出了一种主要面向盗版下载文件的下载信

学位

分布式爬虫权重轮询算法文件下载追踪搜索引擎

基于ONOS的SDN网络QoS优化设计与实现

随着网络技术的高速发展,网络规模的扩大和应用数量的增加,使得用户对网络的服务质量保障提出了新的要求,亟需高效的路由算法对业务流的服务质量（Quality Of Service,QoS）需求进行保障。但是传统网络架构复杂,难以获取全局视图,限制了路由算法的设计和部署,无法提供理想的QoS保障。而软件定义网络（Software Defined Network,SDN）架构的提出,解耦了控制平面和数据平

学位

软件定义网络ONOSQoS路由流量预测强化学习

基于深度学习的声纹识别关键技术研究

随着生活智能化的进程,说话人识别与说话人属性分类在身份认证、公共安全以及智能家居等领域有着越来越广泛的应用,但由于实际应用场景的复杂性,现有基于深度学习的声纹识别和说话人属性分类技术虽然能在静音的理想环境中能够达到较高的识别效果,其对于环境噪声的鲁棒性和识别准确率还有待提高。本文旨在研究具有高鲁棒性说话人识别和说话人属性分类系统,提升其在复杂环境中的准确率,具体研究内容如下:1.提出基于注意力机制

学位

声纹识别说话人属性分类深度学习三元组损失深度置信网络

算力受限环境下时序数据协同预测算法研究

时序数据预测算法已经成为许多社会服务的基础,利用机器学习来对时序数据进行预测是常见的手段,当需要大量计算资源的时候会将计算任务交付给云平台进行处理,云平台为算法提供充沛的算力支撑,然而云平台缺乏灵活性且消耗过多的带宽。为此可将算法下沉到边缘端,边缘端的轻量化可克服云平台的笨拙,但边缘端由于自身硬件的限制,难以提供像云平台那样充沛的算力,导致在进行时序数据预测的时候会出现算力不足或者耗时过长的情况。

学位

时序数据预测协同计算协同预测算法长短期记忆网络时间正则矩阵分解

基于图神经网络的推荐系统研究

互联网技术的快速发展和移动终端的普及向用户们提供了海量的信息资源,用户逐渐习惯于网上购物、看视频、听音乐以及浏览新闻资讯。然而这些丰富的资源也带来了信息过载的问题,使得用户可能需要花费大量的时间以及精力来从海量的信息中检索到感兴趣的内容。如何全面并且精确地帮助用户找到需要的内容成为了个性化推荐系统中的主要目标。向用户们推荐没有参观过的且可能感兴趣的兴趣点（POI）是基于地理位置的社交网络中基本应用

学位

推荐系统图卷积网络知识图谱兴趣点

基于空间向量的四足机器人动力学建模与控制方法研究

与轮式和履带式移动机器人不同,四足式机器人能更好的适用于各种非结构化地形,具有良好的越障能力,机动性强,具有广泛的应用前景。由于四足机器人自由度高,动力学建模繁杂困难、计算量大,控制算法复杂,难以满足实际使用要求。为此,本文重点围绕四足机器人的动力学建模与控制方法开展研究,主要工作如下:首先在国内外四足机器人常见构型的基础上,提出了一种连杆传动的四足机器人结构方案。在分析传统牛顿欧拉迭代算法的基础

学位

四足机器人动力学建模牛顿欧拉迭代空间向量整体控制

任务导向型多轮对话技术的研究

近些年来,随着人工智能日新月异的变化与发展以及自然语言理解技术的不断突破,人机对话系统因其广阔的应用场景以及极大的商业价值受到大量研究人员的关注。得益于互联网的迅速发展和海量数据的产生,深度学习技术获得了长足的进步,依赖于深度学习的端到端对话系统逐渐成为主流。基于端到端方法的对话系统能够根据输入,直接生成对应输出,减少了人工标注数据的工作量,消除了传统管道方法中的误差累积问题。但是,端到端方法仍存

学位

人机对话自然语言处理深度学习任务型多轮对话

建筑机器人云端实时监管系统设计与实现

自“建筑工业4.0”战略提出以来,越来越多的建筑机器人出现在了施工场地,不过就目前而言,建筑机器人的信息化程度仍很不足,缺少远程实时的监管手段。随着云计算技术的高速发展,计算能力和存储资源可以像商品一样被购买,数据上云也成为了越来越多的用户的选择,因此本课题旨在设计并实现一个云端实时监管系统,为建筑机器人提供远程实时的监控与管理服务。本文首先对系统涉及到的相关技术和理论基础进行了调研。然后根据系统

学位

建筑机器人实时监管时序预测孤立森林

基于深度神经网络的人声分离算法的研究与应用

其他学术论文