音频分割与聚类技术研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:smsyzgc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着多媒体和互联网技术的广泛应用和深入普及,多媒体数据的数量正在飞速增长,音频数据作为多媒体数据的重要组成部分,其信息量也在不断膨胀。如何有效地对音频信息进行组织和处理成为现代信息处理的一个研究热点。   原始音频数据本身仅仅是一种非语义符号表示和非结构化的二进制流,缺乏内容语义的描述和结构化组织,给音频信息的深入处理和分析工作带来了很大的困难。音频的分割和聚类,作为提取音频内容语义和结构的重要手段之一,其研究日益引起人们的重视。本文在总结前人研究成果的基础上,着重对音频特征分析与提取、音频分割算法以及音频聚类算法等三方面进行了研究。主要工作如下:   首先,利用多分辨分析的优势,给出了基于小波域的音频特征。该方法以小波变换为理论基础,重点分析了基于帧的音频特征提取和基于例子的音频特征提取,较好的解决了基于时域和基于频域的特征无法描述信号时频局部性质的不足。   其次,针对传统单一音频分割算法中存在的冗余分割点过多等问题,设计了基于GLR(Generalized Likelihood Ratio)距离的改进BIC(BayesianInformation Criterion)音频分割算法。该方法提出了候选跳变点潜在区域的判断准则,并据此给出潜在区域中跳变点的检测方法,对检测到的跳变点进行校验。实验结果表明,与传统的音频分割算法相比,该算法的综合性能大大提高。   最后,提出一种基于Mean Shift的音频聚类算法,该算法可以避免目前大多数聚类算法依赖聚类数目这一先验知识的缺陷。首先将构造的特征集向量进行PCA(Principal Component Analysis)变换后作为聚类的输入,然后利用Mean Shift算法不需要任何先验条件的特性对音频信号进行初步聚类,结合快速近邻法对Mean Shift的聚类结果进行一次修正,并合并仅含有单个元素类别的类进行二次修正。实验结果表明,该算法的聚类精度有一定的提高。
其他文献
BBS是网络舆情产生和传播的主要场所之一,由于手段的匮乏,预测和引导BBS舆情的研究工作仍处于探索阶段。现有工作对论坛数据分析不足,已有模型也仅能从日增回帖数和个人发言数比
学位
动态二进制翻译利用软件方法实现二进制代码移植,支持在目标平台上透明执行源平台的应用程序。传统动态二进制翻译器采用的单线程体系结构,限制了翻译器的性能优化空间,因此,
随着通信技术、嵌入式技术、微型传感器技术、无线网络技术的迅速发展,无线传感器网络因其巨大的应用前景而受到了广泛的关注。通过部署在监测区域内的大量无线传感器网络节点
传统C/S模式在服务器性能上的瓶颈和IP组播在部署推广上的缺陷,导致应用层组播的提出,将组播功能的实现转移到应用层上。而应用层组播算法与P4P技术的结合,能有效的优化覆盖网络
随着Intcrnet和移动通信技术的迅速发展,数据通信量日益增大,人们对于移动IP技术的要求越来越高。由于移动IPv6(MIPv6)技术不仅解决了IPv4中地址紧缺、路由表膨胀等问题,而且
学位
基于内容的视频检索是未来多媒体应用的一个重要方面。镜头分割亦称镜头边界检测是视频检索的关键技术,是实现视频检索的基础,检测的精度好坏直接影响到视频检索的成败和精度
学位
在软件测试中,测试用例的目的是使程序失败,揭示尽量多的缺陷。一个成功的测试是发现了至今未发现的错误的测试。因此使用尽量少的测试用例检测更多的错误是软件测试的重要问题
Web服务作为一种新型的分布式计算模型,已成为目前学术界的研究热点。单个原子服务通常只提供比较单一的功能,无法满足复杂应用的需求;为了实现完整的业务功能,需要把分散的
随着互联网、广电网和电信网这三大网络的不断融合,电视节目观众可以随时随地观看点播视频和直播电视节目。尽管三网融合为电视节目观众带来了丰富的电视节目内容和多种获取
P2P视频点播是继P2P文件共享、P2P直播之后,又一方兴未艾的P2P研究领域。P2P视频点播系统中的关键问题之一是如何在节点加入或播放点跳跃时迅速定位新的供应视频数据的邻居(即