说话人个数时变的语音盲分离研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:deyiyushiyi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
盲源分离是用于阵列信号处理与分析的一种新兴技术,因其能够从观测的混合信号中恢复出原始信号,而对原始信号和混合系统的先验知识要求甚少,故此在无线通信、医学信号处理、图像增强和语音分离等诸多领域有着广泛的应用。 混合语音信号的分离是该技术的研究初衷,也是信号处理领域中的一个难题,涉及问题很多,方法各异。本文简要概括了语音盲分离的基本理论和典型算法,并以此为基础,所做的工作包括如下两方面: 现有的语音盲分离算法都是针对说话人个数已知且在分离过程中恒定的情况,而现实中说话人个数可以是时变的。本文提出一种解决方案,仅用两个麦克风对说话人个数时变的语音信号进行盲分离,不仅能反映说话人个数时变的过程,而且解决了麦克风与说话人之间个数差异引起的超定、欠定问题。其主要思想是:首先,判断说话人个数的变化情况。综合比较几种说话人个数的判断方法后,本文选取一种实时性能较好且易于实现的互功率谱相位法来反映说话人个数的变化过程并按照说话人个数不同,将采集的混合信号分段;其次,对各段分别做盲分离处理。由于说话人个数和麦克风个数存在差异,它们不能始终维持正定情况,所以本文借鉴了超定情况下的盲分离算法DUET;最后,本文提出设想,将各段处理结果用说话人识别技术整合,从而解决了说话人个数时变的语音盲分离问题。 此外,本文还用所提出的方法对盲定位进行了研究。基于互功率谱相来确定信号源到两个麦克风的距离差双曲线,用DUET求解波达方向角。联立曲线和方向角实现多信号源盲定位。因为仅用了两个麦克风,所以定位结果是多个解,本文又结合声音传播规律和余弦定理去除了虚定位。最后用定位结果来指导盲信号分离,实验效果证明了算法的有效性。
其他文献
随着制造业规模的不断发展,信息化在工业生产中的地位越来越重要。制造执行系统的出现有效的解决了制造业信息化实施过程中出现的问题。它有效的将生产计划层和设备自动化系
煤矿监控系统的集成化、网络化是目前煤矿安全领域的一个重要发展方向。是一种综合集成技术,涉及现场总线技术、计算机技术、通信技术和网络技术等。 本课题主要研究了煤矿
当前,工作流技术已经成为企业信息化的一个热点,针对企业业务应用的开发离不开工作流技术的支持。文中深入讨论了工作流模型、工作流建模理论和方法以及工作流引擎层次结构,
随着Internet技术的飞速发展,人们越来越多地依赖网络这个巨大的知识平台。作为用户利用网络信息的重要接口,搜索引擎的发展自Web诞生之日起就一直没有停息。同时,计算机的日
目前,很多软件系统的更新和升级不再是停止运行后进行编码扩充,而是在运行过程中进行功能模块的动态添加,充分利用遗产系统。现有的研究方法包括网络构件,分布式组件和Agent等都
EJB是用于开发和部署多层结构的、分布式的、面向对象的Java应用系统的跨平台的组件体系结构。本文首先简要介绍了J2EE技术规范,然后阐述了EJB的体系结构和各组成部分。同时,
网格计算环境的出现使得大规模跨组织、跨区域的数据共享和分布式应用程序发布成为可能,其基本特点支持广域范围的资源共享和分布式协作。服务质量保证是衡量一个系统是否是网
嵌入式微处理器在军事和民用领域具有广泛的应用,研制具有自主知识产权的嵌入式微处理器,对于嵌入式系统的开发具有重大意义。以x86为主的CISC结构微处理器在嵌入式微处理器
网络攻击的趋势是攻击技术越来越复杂,攻击行为越来越频繁,而获得相关攻击工具以及发动攻击的行为却越来越容易。大量网络攻击行为及攻击事件造成用户资源的破坏与损失,严重
数据的时间一致性和准确性是信息关键所在,然而传统数据库虽然可以保证数据的绝对正确性,却不能保证数据的时间一致性。本文针对传统数据库这一缺陷,通过阅读大量的资料和可