面向嵌入式系统的文本无关说话人识别技术研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:chenger_123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的迅速发展,人机交互技术的不断普及,说话人识别(SpeakerRecognition,SR)以其独特的方便性、经济性和安全性等优势受到了越来越多人的关注,在信息安全等领域的应用也逐渐增加。同时,随着嵌入式系统在处理速度、存储能力、功耗和体积等方面取得突破性的进展,嵌入式说话人识别系统逐渐成为语音识别技术面向实际应用的一个重要发展趋势。然而将与文本无关的说话人识别系统应用到嵌入式设备上,依旧面临着嵌入式设备计算速度、存储能力等资源受限问题和背景噪声、跨信道等算法鲁棒性问题,影响嵌入式说话人识别系统的精度和实际应用效果。   针对上述问题,本文在嵌入式说话人识别系统的运行效率和识别性能两方面进行了研究和改进。主要内容包括:   为了提高系统的运行效率使其能在嵌入式设备上得以应用,引入了一种快速算法——非线性分段(Non-Linear Partition,NLP)算法。由于该算法基于距离累积的分段规则对语音中的微小干扰鲁棒性较差,本文提出了改进的NLP算法,采用绝对值距离替代平方和距离,并引入马氏距离作为新的分段规则。实验证明,改进后的NLP算法使得分段的结果更加稳定。实验结果表明,采用改进的NLP算法相对基线系统整体性能提升20.22%。   为了提高系统的识别性能以及增强系统鲁棒性,针对不同的人发音习惯不同的现象,采用了一种基于基频曲线的特征来着重捕捉说话人较长时间的韵律信息。通过研究现有的一些融合方案,在基线系统的框架上进行改进,提出了一种在分数层上进行分类器融合的方法。该方法更加充分地利用训练用的语料,使得训练用的语料除了用来训练前端数学模型之外,还用来调整后端模型(支持向量机)的超参数,且获得了好的整体辨识结果。提出的多重特征融合的方法得到了最高的辨识率,相对基线系统整体性能提升了47.57%。  
其他文献
随着移动互联网的发展,移动智能终端设备在全球范围内得到了迅速地普及。Android作为一款应用于移动智能手机上的操作系统,以其开源的特性受到了众多用户的青睐。然而,开源的代
信息物理融合系统(Cyber Physical Systems,CPS)是一种新兴技术,它代表了下一代的核心信息技术,甚至被称为“第三次信息革命”,足见其受重视程度。CPS注重的是现实世界和虚拟
无线传感器网络WSN是当前嵌入式与物联网领域的研究热点之一。WSN的应用开发涉及传感器、无线通信与组网、嵌入式软硬件设计及应用对象领域等综合技术。WSN的应用研究与产品
目前,语音端点检测已经成为语音识别,语音编码及语音分类等语音处理过程中必不可少的一部分。作为语音技术的预处理,语音端点检测(Voice Activity Detection,VAD)准确率的微小改进
近年来,随着语音识别技术不断地发展,语音识别系统已开始从PC机逐步走向嵌入式平台。然而当嵌入式语音识别系统应用到真实的操作环境中时,由于训练环境和识别环境的不匹配,导致其
目标跟踪技术是计算机视觉领域中的热门课题之一,目前该技术已广泛应用于民用、军用和工程等各个领域,本文主要研究基于EMD(Earth Movers Distance)的目标跟踪算法研究与实现。
入侵检测是网络安全的主动防御工具,当检测到入侵行为时,要求响应单元尽可能快速响应处理,并记录其特征,以便于以后的检测。由于发生的入侵行为大多具有相关性,故入侵行为的
图像分割的目的就是把图像分成具有不同特征的区域,并通过一定的方法把人们感兴趣的内容提取出来的过程,在医学图像的分析、计算机视觉、图像编码等很多领域也已得到了实际的
石油作为工业发展的血液,不仅是动力燃料的来源,其提炼物更是深入到我们生活的方方面面。随着开采深度的加深,钻井难度的加大,要求螺杆钻具性能更高,螺杆钻具设计的好坏影响
互联网的兴起,用户爆炸性的增长,新的威胁和攻击不断出现,对网络的安全提出了新的挑战,尤其是海量数据、噪声处理以及在线学习问题,网络安全问题逐渐成为亟待解决的首要问题