基于嵌入式平台的说话人识别系统的研究与实现

来源 :东南大学 | 被引量 : 5次 | 上传用户:cwq2214
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
说话人识别系统通过语音设备采集语音信号,然后对语音信号经过预处理并进行特征参数的提取,最后经过说话人识别的算法鉴别出说话人的身份。作为当今的一个研究热点,说话人识别有其广泛的应用前景,特别是在公安司法、金融以及信息服务等领域。针对目前说话人识别算法复杂度高,鲁棒性不强的问题,本文主要研究了说话人识别算法,并从实用的角度出发,设计并实现了基于嵌入式linux的说话人识别系统。本课题选用三星S5PV210作为核心处理器,并基于嵌入式linux系统搭建嵌入式平台。实现使用u-boot开发bootloader引导程序,对linux-3.0.8的内核进行裁剪和编译生成内核镜像文件uImage,使用nfs起根文件系统,最后的应用程序主要使用QT来开发最终的说话人识别的界面。在说话人识别系统实现方面,课题利用ALSA函数库实现语音的采集,实现对语音信号的预处理并且对处理过的语音信号进行特征参数的提取,最终再利用矢量量化(VQ)和高斯混合模型(GMM)的原理实现说话人识别系统,并且通过对其他的说话人识别系统比如隐马尔可夫(HMM)和人工神经网络(ANN)加深对说话人识别的认识和理解。同时本文使用频谱时间接受域(STRF)特征提取,该算法比Mel频率倒谱系数(MFCC)更符合人耳特性,从而提高系统的鲁棒性,但由于其识别率较低,因此可以融合MFCC,从而提高系统的识别率。以此同时对GMM模型进行改进,使用改进的EM算法和改进的遗传算法,最终将改进的STRF运用在改进的GMM模型上,实现本文算法目的。通过一系列的移植操作,将PC上实现的说话人识别系统移植到开发板上,实现其真正的实际应用。基于嵌入式系统的说话人识别系统具有实时性,专用性以及良好的用户界面等优点,为其在以后市场的使用奠定了实际基础。
其他文献
可独立解码的视频帧内编码帧(Ⅰ帧)具有作为随机访问点、防止错误传播等重要功能,因而在视频应用中扮演着至关重要的角色,现今一些高质量视频应用例如数字电影中也有直接使用
作为一种便捷的网路通信技术,即时通信软件已经越来越深入人心,应用范围从单纯的网络聊天工具变成工作生活不可或缺的信息平台,找出其自身的局限性并对其扩展完善显得尤为迫切。
目前,随着“互联网+”时代的到来,各行各业都将传统行业和互联网进行整合,来达到产业的升级换代,由此必然会产生海量的互联网数据。XML可以在不同平台间进行数据的表示、存储
合成孔径雷达(SAR)由于其全天时、全天候、高分辨率、可侧视成像等优点,得到了广泛的应用和飞速的发展。由于每幅SAR图像不可避免地都含有相干斑噪声,严重降低了图像相邻像素
近年来,以PTT (Push To Talk)业务为主的多媒体业务在专用无线Mesh网络(Wireless Mesh Network, WMN)上得到了广泛的应用,这些业务对网络服务质量保证(Quality of Service, Q
移动Ad Hoc网络是由一组带有无线收发信装置的移动节点组成的一个多跳无线移动通信网络,它不依赖于预设的网络基础设施而临时组建。移动无线传感器网络是移动Ad Hoc网络的一
去年11月,中共中央制定和颁布了《公民道德建设实施纲要》,这是我国思想道德建设和群众性精神文明建设的一件大事,它把我国公民道德体系的建设提到了一个崭新的高度。随着《纲要
煤炭是我国的基础能源,在我国一次能源生产和消费结构中始终占据70%左右。然而煤矿瓦斯安全事故却频频发生,除了要加强安全管理和技术培训之外,更重要的是对煤矿环境的静电、瓦斯
日常生活中,我们经常会接收到各种各样的混合信号,而我们可能只需要混合信号中的部分源信号或其中某一个源信号,所以对盲源分离的研究是很有必要的。盲源分离是研究如何从混合信
学位