论文部分内容阅读
文章在动窗离散傅立叶变换为基础获取说话人的长时平均频谱(即短时频谱的长时平均),然后将长时平均频谱经过能量归一化和频率归一化后作为“文本无关”话者识别的语音特征。分析之前,语音样本经过频域预知权和时域汉明窗加权处理,并利用帧能量门限自动去除了样本中的寂静段。通过在小人群范围内对该方法的大量实验,得到很好的话者识别效果。另外,作为“文本无关”话者识别的一个重要辅助手段,文章还利用短时频谱分析给出了话者语音样本的窄带三维语图和宽带三维语图,它们能清晰地给出话者语音的时变频率特征。