论文部分内容阅读
说话人识别作为一种生物识别技术,能够根据测试语音来辨别说话者的身份。在实际应用中,说话人识别技术以其独特的方便性、经济性等优势受到世人的关注,在信息安全和身份鉴别领域都有着广泛的应用前景。目前,针对说话人识别系统的研究主要集中在算法的鲁棒性和实现平台上。MFCC(Mel Frequency Cepstrum Coefficient)利用了人耳听觉原理和倒谱的解相关特性,具有对信道失真的补偿能力,因而被广泛的应用于语音相关的识别任务中。基于矢量量化的识别算法具有较高的鲁棒性,算法相对简单,是文本相关识别的主流算法之一。当前已有的说话人识别系统大都基于计算机软件或者以DSP(Digital Signal Processor)为核心平台。随着数据库的不断增大和算法复杂度的提升,系统的实时性等要求将面临着巨大的挑战。本文重点研究算法的实现平台,从而有效地解决了系统实时性问题。本文针对实时性问题提出了一种以FPGA(Field Programmable Gate Array)为硬件平台的解决方案。该方案以MFCC为语音特征,采用了基于矢量量化的说话人识别算法。系统主要包括语音信号采集、端点检测、特征提取、码本训练和识别判断5个部分。语音采集模块通过I2C总线完成了对WM8731语音编解码芯片的控制;端点检测模块设计并实现了基于短时能量和短时过零率的双门限算法;特征提取模块完成了MFCC系数的提取,设计并实现了按时间抽取基2的FFTIP核和以2为底的取对数IP核;通过LBG算法完成了码本的训练;识别判断模块实现了基于平方误差欧氏距离测度的矢量量化识别算法。系统的硬件实现采用Verilog HDL语言,在设计过程中运用了乒乓操作、流水线设计和模块复用等手段,充分发挥了FPGA高速、并行运算的优势。最后,在友晶科技公司的DE2-35开发板上进行调试、验证。经测试证明,该系统完成了文本相关的说话人识别系统的基本功能。在实验室条件下,当系统时钟为50MHz时,完成一次4码本系统的识别耗时15.932ms;12码本系统的识别率为93.3%。该设计提高了系统的识别速度,是一种解决实时性问题的有效方案。