论文部分内容阅读
语音活动检测是指从一段包含语音的信号中准确地确定语音的起始点和终止点的技术。由于语音活动检测对语音分析、语音合成、语音编码和语音识别等技术具有关键作用,所以本文针对语音活动检测的关键技术进行相关研究工作,并且实现一个语音活动检测系统。由于目前的语音活动检测方法众多,而基于多观测似然比特征的语音活动检测具有模型简单和检测性能好等特点,因此本文使用多观测似然比特征进行语音活动检测。首先对语音信号进行分帧,然后对信号进行噪声估计,根据噪声估计的结果计算每一帧的似然比,并将每帧似然比与之前若干帧的似然比共同组成分析样本。在完成特征提取步骤后,我们利用得到的训练样本训练语音活动检测的决策规则。本文使用线性分类器作为决策规则模型,所以问题的重点是如何训练得到合适的线性分类器权值,以使检测尽可能准确。本文介绍了最小分类错误(Minimum Classification Error,MCE)模型、最大化检测结果的ROC曲线下的面积(Maximum Area Under the ROC Curve,MaxAUC)模型和支持向量机(Support Vector Machine, SVM)模型,并且提出了扩展的MaxAUC模型。实验表明,扩展的MaxAUC模型和SVM模型具有更好的稳定性和检测性能。为了了解语音活动检测系统的真正需求和模块功能,本文对该系统进行了需求分析和系统设计。在需求分析中,列举了系统应该满足的要求,并且将系统分解为信号导入、特征提取、训练和测试四个模块,为了更清晰地表示各个模块之间的关系,本文用数据流图刻画了系统中数据在各个模块之间的传递和加工的过程,使我们对各个模块之间的关系有了更加清晰的认识。在系统设计中,我们首先表示了系统的整体工作过程,然后对于系统的几个重要模块描述了它们的功能、工作流程、参数和返回值。需求分析和系统设计为后续的系统实现和系统测试打下了基础。最后,本文对系统进行了测试,以验证系统的性能和效果。本文分别对系统的噪声估计和几个决策规则模型进行了测试,结果显示,该系统的检测性能良好。