论文部分内容阅读
“互联网+”时代的到来,网络通信飞速发展,人们可以直接通过语音与计算机或各种移动终端设备之间进行交流,完成各种语音指令,给人们带来方便的同时也导致语音的存储量“爆炸式”增长。云计算的诞生,为大规模信息存储提供了转机。但云存储平台并不是可信任的第三方,如何保证云端数据的安全性以及如何提高云端大规模语音数据处理的效率成为亟需解决的问题。针对上述问题,本文研究了适用于语音的感知哈希算法,并将其应用于大规模语音检索与认证应用中,主要研究工作如下:(1)设计了一种基于共振峰频率和时域能量差的感知哈希方案,该方案利用共振峰能够表征说话人音色特征这一特性,提取语音段的共振峰频率作为特征参数构造语音的粗糙感知哈希序列。利用时域短时能量差具有较强的鲁棒性以及计算复杂度相对较低的特点,将时域能量差作为语音段的细节特征,量化为语音的细节感知哈希序列,将粗糙感知哈希序列和细节感知哈希序列按分帧的顺序结合起来,作为最终的感知哈希序列。仿真实验结果表明,本文算法具有很强的感知鲁棒性,良好的区分性和摘要性,并且该算法的设计过程是从实际应用角度出发,将该感知哈希方案应用于大规模语音检索时能有效提升检索效率。(2)实现了基于感知哈希的语音检索与认证应用。感知哈希算法特征选取和量化方法多种多样,但在各种应用中的匹配过程通常都是逐一匹配感知哈希序列的比特位,选取相关性最高的记为匹配结果,这种方法增加了许多不必要的计算量。本文从大数据的应用背景出发,提出分级匹配思想,可明显提升计算效率,为该感知哈希方案应用于云端大规模语音检索提供了新思路。本文设计的语音检索方案,匹配过程首先对语音的粗略特征进行匹配,筛选出与目标语音具有相似音色的语音片段,然后对筛选出的具有相似音色的语音匹配其细节特征,最终获得精确匹配结果。应用于云端海量语音信号处理时可以省去匹配细节感知哈希序列的计算量,提高匹配效率。同时考虑到数据传输过程的安全性,对检索结果进一步认证,认证通过才返回给用户。实验结果表明,该检索方案可获得较高查全率和查准率,同时检索效率明显提高。