论文部分内容阅读
本文主要从说话人的切分和说话人的聚类两个方面讨论了视频中的说话人信息处理。在说话人切分方面,本文详细讨论了说话人切分的三个基本问题:候选切换点的选择、说话人特征提取以及语音段相似性的度量;提出了一种基于混合高斯模型的近似KL差异的说话人切分算法,该算法可以有效地检测说话人的切换点,性能也明显优于GLR等其他相似性度量方法。在说话人聚类方面,本文提出并尝试了四种非监督的说话人聚类算法:序贯聚类、全局聚类、自底向上的层次聚类和基于Information Bottleneck的AIB聚类,并通过实验比较了这四种算法在性能上的差别。除了上述两个主要方面外,本文还介绍了说话人信息在TRECVID评测中的应用,包括将说话人的切换信息用于新闻故事分割,以及独白检测和性别检测等高层语义特征提取任务。