声纹识别在声控系统中的研究与实现

被引量 : 0次 | 上传用户:hawk327
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人类数字化生活需求的增加和多媒体时代的来临,人们越来越渴望打破过去传统的人机交互模式,寻找一种更加自然、友好、稳定的交互方式。近期iphone4s的Siri语音控制功能的推出再一次引领了语音识别的研究热潮。本文正是在这种背景之下,通过构建基于Windows的语音控制系统作为声纹识别的具体应用环境,将声纹识别和语音识别结合起来,实现一个具有声纹识别功能的分权限语音控制系统。同时将本文的研究重心放在声纹识别相关技术的研究中,以寻求一种具备声纹识别功能的人性化交互模式。本文的具体工作如下:本文首先介绍了基于GMM(Gaussian Mixture Model)的声纹识别和基于Speech SDK(Software Development Kit)的语音控制的关键技术。针对传统GMM和GMM-UBM(Universal Background Model)受训练样本量的制约和说话人被强制趋于统一分布的弱点,本文提出了基于区分性GMM的建模方法和区分性识别方法,以增加说话人之间的差异性为出发点,使模型能够更好的拟合说话人特征矢量的空间分布。同时将建模过程中衍生的两个具有区分性的子UBM作为特征空间性别分类器,来划分特征空间和模板库,从而提高系统的识别率和响应速度。其次本文针对传统的K-means聚类算法只具备局部寻优能力和对初始聚类中心及噪声点敏感的弱点,本文提出了基于密度和方差的加权距离聚类、基于模拟退火思想的全局优化聚类算法应用到声学特征类的形成。通过改进的聚类算法使呈现椭圆形分布的高维语音数据能够更精确的形成声学特征类,使各阶单高斯分量承担更精确的数据,进而提高系能性能,同时此算法也可被推广到其他领域中。最后本文基于区分性GMM和Speech SDK语音识别引擎及Windows API(Application Program Interface)函数和消息响应机制的基础之上,构建了具有声纹识别功能的分权限语音控制系统,完成了具备声纹识别功能的人机交互的目标。
其他文献
<正>老子《道德经》指出:"大成或缺,其用不弊;大盈若冲,其用无穷",大概中药应用之道亦不例外。明代著名医家张景岳在注释《素问·六元正纪大论》中关于孕妇用药"有故无殒,亦
随着近年来我国水泥工业的快速发展,作为水泥厂重要构筑物的水泥熟料筒仓的使用也越来越广泛。与此同时,一些新的课题也随之而来。一方面,钢筋混凝土筒仓在使用一段时间后,由
在对生命的尊重、构建和谐社会的需求、教育本质的回归等因素的作用下,学校安全问题越来越受到社会的关注。近年来频发的地震、洪灾等自然灾害,非典、甲流感等传染病,楼道踩
小学奥数热现象出现的最根本原因是对优质教育资源的追求,直接原因是当前的择校机制。此外,奥数经济也起到一定的推波助澜作用。奥数热折射出当前教育中的功利主义倾向,不利
自学能力的培养应该纳入课程体系,定位于隐性课程。要整体规划自学能力培养的隐性课程,按照学生的学习进程,逐步增加学生自学在教与学关系中的分量;在学生的不同年级,要有所
苏轼的童蒙教育思想主要体现在其《东坡易传》蒙卦的注解里。《东坡易传》蒙卦注解也是苏轼贬琼期间启蒙海南文教的主要著作。苏轼的童蒙教育思想主张启蒙以育德为先,应养其
教师教育课程改革是基础教育课程改革的关键性环节。教师教育课程改革有利于基础教育明确办学方向,更新教育理念;有利于基础教育更新教学内容,改进教学方法;有利于全面转变教
让·鲍德里亚作为当代著名的哲学家、社会学家,撰写了一系列分析当代社会文化现象、批判当代资本主义的著作,并最终成为享誉世界的著名学者。作为近年来学界热点讨论的对象,鲍德
服饰是了解民族文化的一个重要侧面,是没有文字的历史文献。不同的自然环境、生产和生活方式造成了不同的民族性格和民族心理,从而形成了不同的服饰风格和服饰特点,更创造出了属
社会主义和谐社会是以人为主体的社会和谐发展的状态。具体说来,它包括人与自然的和谐、人与人的和谐以及社会结构之间的和谐等多方面的内容。虽然构建社会主义和谐社会是一项