视频中的说话人信息分析及其应用

来源 :复旦大学 | 被引量 : 0次 | 上传用户:lajiub1987
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文主要从说话人的切分和说话人的聚类两个方面讨论了视频中的说话人信息处理。在说话人切分方面,本文详细讨论了说话人切分的三个基本问题:候选切换点的选择、说话人特征提取以及语音段相似性的度量;提出了一种基于混合高斯模型的近似KL差异的说话人切分算法,该算法可以有效地检测说话人的切换点,性能也明显优于GLR等其他相似性度量方法。在说话人聚类方面,本文提出并尝试了四种非监督的说话人聚类算法:序贯聚类、全局聚类、自底向上的层次聚类和基于Information Bottleneck的AIB聚类,并通过实验比较了这四种算法在性能上的差别。除了上述两个主要方面外,本文还介绍了说话人信息在TRECVID评测中的应用,包括将说话人的切换信息用于新闻故事分割,以及独白检测和性别检测等高层语义特征提取任务。
其他文献
随着“无处不在的计算“以及移动计算模型的提出,计算与位置的无关性成为人们关注的焦点,无线网络作为上述计算模型中的一个重要角色,发挥着越来越重要的作用。而从整体上来
随着工业控制技术的发展,一种跨平台式的、可进行远程管理的、通用的、支持嵌入式Linux的集散控制系统必不可少。本文就是在这种背景下提出了跨平台嵌入式集散控制系统的方案
本论文应用虚拟现实技术研究基于OpenGL的虚拟现实开发平台设计。OpenGL是一个功能强大的三维图形库,但是在应用MFC程序和OpenGL进行绘制图形和场景时,都是在程序中直接写代码,
本文对网络仿真技术的方法和过程进行了研究,设计实现了一个新的基于设备的网络仿真系统。文章研究了网络仿真系统的建模方法并对已有的网络仿真工具和软件进行分析和比较;结合
随着Java在开发中的广泛应用,关于实时Java的研究已经开始。虽然Java进程委员会(JCP)已经收到了实时Java的规范请求(JSR1),并且已经有很多公司开展了相关的研究,但是一方面由
本论文研究的主要内容为遥感图象中的机场分割与识别。作为一个应用很广泛的领域,目标识别具有很强的针对性和依赖性。在实际应用中,往往是针对不同的目标,提出不同的应用假设,选
利用数字作品中普遍存在的冗余数据与随机性把版权信息嵌入在数字作品中,起到保护数字产品版权或完整性的作用。随着因特网技术的飞速发展,在因特网上允许授权用户远程查询和访
本文讨论了包括预先配置的对密钥管理方案以及基于可信第三方的对密钥管理等几种主要的对密钥管理方案,通过分析无线传感器网络中影响到对密钥管理的几种限制条件,总结提出了
从20 世纪90 年代开始,在国际网络界就进行了许多关于高性能的网络体系结构的研究。但由于这些研究都是基于传统的层次结构网络,所以虽然它能对网络的性能进行改善,但难以解
情绪是一个复杂的心理状态或过程,目前在科学研究领域对于情绪还没有准确的定义。情绪研究不仅对脑功能研究具有十分重要的理论意义,并且对人-机交互应用具有非常重要的现实应