基于DNN的语言识别系统的研究与实现

来源 :电子科技大学 | 被引量 : 6次 | 上传用户:xt23z
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语言是人们日常进行沟通最常见的方法之一,是一种不可或缺的技能。在全球化进程中,人们对语言沟通的障碍日益凸显。在这种背景下,迫切要求能够实现语言识别,因此,语言识别成为近几年语音研究方向的重要研究课题。现有的语言识别系统仍然存在很多问题,比如在复杂的语音背景下提取出纯净的语音信息,从易混淆的语言中将具有语言属性的信息剥离出来等,因此,语言识别仍有待继续研究和探索。语言识别(Language Identification,LID)是根据语音对说话人所说语言所属种类进行自动区分,从而进行说话人语种鉴别的生物特征识别技术。基于音素特征和基于底层的声学特征已经被证明能够非常有效的代表语言种类信息。虽然,通过机器学习能够有效改进了语言识别性能,但识别率依然达不到要求,尤其是对于短时语音段来说,识别性能仍然有待提高。近年来,基于DNN(Deep Neural Network,DNN)的语言识别更是由于DNN的兴起和广泛应用以及良好效果,成为学术界以及工业界的一个研究热点。本次课题以基于DNN的语言识别为研究重点,致力于完成一个完善的且性能良好的语言识别系统。主要做了以下几点工作:1.实现基于DNN的语言识别系统。2.采用一种基于底层声学特征的音素特征向量,即DBF(Deep Bottleneck Features,DBF)特征,这一特征比底层声学特征和音素特征更能够对语言特征进行表述。3.使用一种采用DBF训练DNN统计量提取I-Vector的方法,将DBF代替UBM(Universal Background Model,UBM)用在GMM(Gaussian Mixture Model,GMM)模型中,获得更加精确的统计量,进而提高识别效率。4.对整个系统进行测试和分析。首先,对DBF特征与SDC特征进行性能对比,结果表明,DBF特征对语言有更强的表达能力,在短时语音任务、长时语音任务和易混淆和方言识别任务上性能有显著提高。然后,对基于DBF-GMM-TV的方法和基于DNN-TV的方法在性能方面做了对比分析。表明采用这种模型域能更有效的对模型进行估计。最后,从本地测试和网络在线测试两个方面对系统性能做了测试。
其他文献
通过对 GMS 静止卫星的红外数据处理,获得了1991年夏季江淮梅雨期暴雨大范围的平均云分布。对1991年6月6次江淮暴雨过程逐时和3小时的 GMS 红外云图动画和照片的分析,得到了
目的探讨黄芩提取物对肝癌H22模型小鼠的抑瘤作用及其可能的作用机制。方法将H22瘤株接种于小鼠,建立移植瘤模型。造模成功后随机分为模型组、5-Fu组及黄芩提取物低、中、高
本文将太阳能电池板、集热器、热电发电片结合起来,设计并开发制成了一套光伏/热电系统(PV/TV),在利用太阳能电池发电的同时,可将热量收集并利用其发电。而后将这种系统在北
市民卡工程是城市信息化建设的一项重要内容,它通过整合城市有关公共事务部门的信息资源,构建全市统一的信息网络平台,有关政府部门和单位可借此大大提高管理的效率和水平,实
随着智能手机的逐渐普及和ARCGIS Mobile技术的不断发展,在无线通信技术的支撑下,为测绘行业建立基于移动GIS的测绘系统创造了条件。以智能手机为载体,基于ARCGIS Mobile与无
税务行政复议调解为税务行政相对人提供了平等和谐的对话氛围,不仅能够快速解决纠纷,而且对于延伸税收服务职能、促进征纳关系和谐具有重要作用。但由于立法对行政复议调解制
目的调查福建泉州区域内可用于治疗肝病的野生中草药种类。方法通过实地调查结合文献查阅的方法,对福建泉州区域可用于治疗肝病的野生中草药资源进行归纳整理与分析。结果福
随着经济社会的快速发展,保障性住房建设与管理随之而来也产生了进入退出机制不健全、缺少健全专门的管理和实施机构、物业管理和收费存在不公现象等问题,能否解决好这些问题
对拟建小南海水利工程对长江上游珍稀特有鱼类国家级自然保护区的生态影响的预测分析结果表明,保护区72.5km江段的水文情势发生改变,部分江段的结构和功能将遭受严重破坏,胭
网络环境下,信息技术发展催生了一系列自媒体,引发了节目制作领域的巨大变革。网络自制节目以良好的主体多元、交互性强等传播特点,丰富了人们的娱乐生活,其草根化、生活化的制作