基于样本平衡化和迁移成分分析的音频场景识别

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:sfol001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
音频场景识别是指通过分析音频信号的特点识别出对应的场景信息。目前音频场景识别系统的主要问题在于测试样本分布与训练集样本分布之间存在差异,在此情况下使用传统的学习方法不能得到满意的识别率。为了解决这一问题,本文引入迁移学习的理论和方法。本文采用高斯直方图作为场景特征,通过迁移学习方法缩小训练集和测试集样本分布之间的差异,然后使用支持向量机(Support Vector Machine,SVM)进行识别。本文研究了当前主要的两类迁移方法:样本迁移和特征迁移。在样本迁移方面研究了样本选择偏差,改进了一种与样本选择偏差类型无关的去除偏差的方法:基于样本选择偏差的样本平衡化(Re-Balancing by SampleSelection Bias,RBSSB),并结合核密度估计的思想,通过重新选择训练样本来去除样本选择偏差,从而对齐训练样本和测试样本之间的边缘概率分布。在特征迁移方面研究了迁移成分分析(Transfer Component Analysis,TCA)并对其进行了改进,在TCA的基础上加入最大化训练集的类间散度和最小化训练集的类内散度的优化项,提出了判别式迁移成分分析(Fisher Discriminant TransferComponent Analysis,FDTCA),使得迁移后不同类别的场景特征具有更好的区分性。并且提出了线性TCA,大大减少了特征迁移的计算量。实验结果表明:与不进行迁移相比,RBSSB和TCA均能提高音频场景识别的准确率。最后根据两类迁移的特点对二者进行了融合,实现了基于RBSSB和TCA的音频场景识别系统。实验表明,融合后的系统识别率比采用单一迁移方法的识别率更高。
其他文献
本文重点研究了以Linux网络设备驱动程序为基础的零拷贝原理及其实现方法。文中提出的零拷贝解决方案,可用于解决目前网络服务领域面临的问题。 本文对Linux网络设备驱动程
多目标进化算法(Multi-objectiveEvolutionaryAlgorithm,简称MOEA)在解决现实生活问题中表现出极大的优越性。但同时它在解决某些问题上存在一些限制,特别是当目标个数大于3个时
随着信息技术的不断发展和企业信息化程度的提高,企业信息发表系统在企业的业务发展中起着越来越重要的作用,在增强多区域多部门的企业信息交换,提高企业的运行效率的同时,又降低
ShimonPeres定律指出,如果一个问题无法彻底解决,那么不应把它看作一个问题,而应该把它当作一个事实。面对事实,只能考虑如何处理它,从而使它的负面影响降到最小,这是面向恢复计算
随着互联网技术与应用的迅速发展,基于Web服务的分布式计算模式正在成为技术发展的趋势,而相关标准的制定和业界厂商的极力支持也加速了Web服务的发展。然而,随着Web服务应用
随着因特网的发展和IP技术的广泛应用,用户对IP网络中多媒体和实时交互业务需求不断增加,而这些多媒体信息都需要网络提供服务质量的保证。而现在在IP网络中广泛使用的尽力而为
对于二维任意的两类特征样本进行分类,特征提取的好坏直接影响到分类器设计和性能。非线性问题是很多学科研究当中经常遇到的困难,不仅要研究较好分类决策,而且要研究较好的特征
随着网络技术和宽带数据业务的高速发展,骨干网、城域网和用户驻地网都得到了快速的发展。接入网作为最靠近用户的基础网络,如何实现用户的个性化需求,提供给用户充足的带宽,解决
随着企业信息化建设的不断深入,尤其是在企业外部环境充满变化、内部环境不断调整、信息技术不断发展的情况下,企业急需了解现有信息系统的应用状态(信息系统所能发挥的效用)是
观察信息约简是智能规划的前沿领域。目前国内外对观察信息约简的研究主要是集中于针对单个agent的强规划解,还有一些问题有待于进行观察信息约简方面的研究,尤其在多agent规划