基于CNN多特征融合的藏语语音识别的研究

来源 :西北师范大学 | 被引量 : 1次 | 上传用户:dfdfdfdfgdfdfg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科学技术的进步以及人机交互技术的兴盛,语音识别技术已经成为国内外研究的热门学科。目前国内以现代标准汉语为代表主流语言在语音识别上已经获得了很好的成绩,但对于非主流语言来说,比如少数民族语言藏语,前人也做过一些相关的研究,最终取得的研究结果不理想。因此本文以研究藏语语音识别为目的,重点研究了融合多个特征的藏语语音识别。本文的主要工作和创新如下:1.实现了基于Savitzy-Golay滤波和改进子带能量熵的端点检测算法。设计了与基于谱减法下短时能量结合子带方差的算法、谱减法下子带能熵算法以及改进的基于MFCC余弦值算法三种算法的对比实验。实验结果表明,在不同信噪比的高斯白噪声、Factory噪声以及Pink噪声下,本文算法都优于其他算法,特别是低信噪比下。对于-10d B的高斯白噪声来说,本文算法的检测精度分别比基于谱减法下短时能量结合子带方差算法和谱减法下子带能熵比算法的检测精度提升了12.38%、9.13%。2.实现了基于CNN声学模型的藏语语音识别。采用了200维声谱图特征,利用CNN网络来训练藏语语音语料来建立声学模型,通过对藏语文本语料训练获取3-gram语言模型,按照一定的比例随机分配语料,设计识别交叉验证实验。实验结果表明,三次交叉验证实验得到基于CNN的藏语语音识别词错误率分别为26.90%、27.19%、26.58%,从识别错误率来看,该模型用于藏语语音识别具有一定可靠性。同时完成了模型中是否添加Dropout对识别结果影响的实验,结果表明同一组数据下添加了Dropout的模型识别效果更好,并且识别率提升了1.8%。3.实现了基于CNN的多特征藏语语音识别。采用了FBank、MFCC、声谱图三种特征,介绍了特征融合的方式,设计了不同对比实验:基于FBank特征的识别、基于FBank+MFCC特征的识别、基于FBank+声谱图特征的识别、基于FBank+MFCC+声谱图特征的识别,实现了这四种方案的藏语语音识别,实验结果表明:基于FBank+MFCC+声谱图特征的识别效果最佳,比前三种方案词错误率分别低1.28%、0.87%、0.42%。
其他文献
随着科学技术的不断发展,各种核物理实验所需的实验平台随之建立,实验平台的建立为核物理实验的发展提供了必备条件。随着核物理实验的规模越来越大,应用在核物理实验的探测器也随之快速发展。现在,探测器的种类越来越多,规模越来越大,通道数多而且探测单元密度高。为了更好的采集探测器输出的信号,对连接探测器的读出电子学系统提出了新的需求。本次研究针对新的读出需求,介绍一种具有高集成度、多通道、低功耗、高数据传输
羊奶和牛奶中含有丰富的脂肪、蛋白质、矿物质等营养物质,其种类和含量有一定的差异。羊奶中的营养物质含量较高而且致敏性低、产量低,导致其市场价值也远远高于牛奶。但是二者的物理性质比较接近,仅凭感官很难将二者区分。羊奶和牛奶中的蛋白质都是由酪蛋白和乳清蛋白组成的。酪蛋白主要包括α-酪蛋白、β-酪蛋白、κ-酪蛋白,乳清蛋白包括α-乳白蛋白和β-乳球蛋白、乳铁蛋白和免疫球蛋白等。虽然牛奶和羊奶中均含有这些蛋
香椿是一种香气浓郁且富含营养及功能成分的木本蔬菜。但香椿采摘季节性强,难以保鲜,不能满足消费者的常年需求。发酵食品保质期较长,风味独特,由于发酵条件与发酵方式不同,使得发酵蔬菜中的微生物多样性各异,从而影响发酵食品的感官及营养品质。本文通过分析加盐量4%的香椿泡菜(TSPC4)、加盐量6%的香椿泡菜(TSPC6)、加盐量8%的香椿泡菜(TSPC8)在发酵过程中的理化特性、生物活性、风味特性与微生物
随着激光技术的发展,各种各样的环状激光束相继产生,并逐渐形成一类新型激光束。对于环状激光的传播动力学,人们当前关心的问题主要有两方面,一为环状空心激光束的传播动力学,二为非环状激光束在传播过程中的成环动力学。环状空心激光束是中心光强为零的一种环状激光束,而柱矢量偏振的环状空心激光,特别是径向和角向偏振的环状空心激光束,由于其偏振柱对称性引起了更多的关注。作为环状空心激光束的一种,角向偏振的一阶Be
鲜食核桃营养丰富,口感脆嫩,核桃青皮果实是目前鲜核桃销售的重要形式,但是在贮藏过程中果实易出现褐变和开裂等问题,褐变会影响种仁的口感和营养品质。低温贮藏对延缓果蔬的褐变、衰老等具有积极作用,但有关不同低温贮藏对核桃冷藏及货架果实品质的影响鲜见报道。本试验以核桃果实为材料,采用不同温度(0、2、5、8℃)条件贮藏,测定核桃果实不同部位冷藏期感官品质、抗氧化相关生理指标和核仁品质的差异,及其不同温度冷
森林覆盖变化引起强烈的生物物理反馈进而影响局部气候。地表温度常用于表征造林的局部气候效应。卫星观测的地表温度(Land Surface Temperature,T)和土地覆盖类型或森林覆盖变化数据已被广泛应用于研究造林/砍伐对当地地表温度的影响(ΔT)。以往的分析使用不同的方法来量化造林对地表温度的影响,然而量化结果之间存在较大差异,且导致这种差异的原因尚不明确。自1999年以来中国实施大规模造林
中国鸡蛋产量居世界首位,但深加工能力落后。将鲜鸡蛋预煮凝固、剥皮浸渍加工成卤蛋是增加鲜蛋附加值的有效途径,深受人们喜爱。预煮是卤蛋加工的关键环节,预煮后蛋清蛋黄的凝固程度是影响卤蛋品质的显著因素。目前,通常采用沸水或通蒸汽来预煮鸡蛋,但该法由于加热条件不可控,易造成鸡蛋蛋清蛋黄凝固不均,严重影响了后续卤蛋的加工品质。欧姆加热技术作为一种新兴的食品加工技术,在鸡蛋预煮的应用中具有潜在优势和广泛的应用
果品在采收、运输、加工和储存过程中常因挤压、振动、冲击、碰撞等发生损伤。果品受到机械损伤后,真菌、细菌等会更容易侵蚀损伤部位的果肉,加速果实衰老及腐烂的速度,并进一步感染其他未受损的果品,造成较大的经济损失。现有研究指出近红外光谱和高光谱成像技术可以无损检测内部损伤的果品,但光谱是光子在果品组织内吸收和散射作用的综合反映。不同类型的损伤对果品理化特性和果肉组织的影响不同,而目前尚不清楚不同类型的损
自动语音识别是将语音序列转换为文本序列,是实现人机交互的关键技术。当前,随着人工智能的发展,汉语、英语、日语等主流语言的研究以及语音识别技术已经很成熟。但藏语作为一种少数民族语言,没有大规模的语料库,语言学研究基础薄弱,导致藏语语音识别技术比较落后,实际应用较少。针对藏语语音识别中存在的问题,本文设计并建立了藏语发音词典、语料库、语言模型,重点对藏语语音声学特征的提取以及语音识别模型的构建进行研究
近年来,气候变暖导致地球水量时空分布不均衡,加剧了我国干湿区域两极分化程度。黄土丘陵区开展“退耕还林还草”工程以来,生态植被覆盖度逐年提升,但树种选取不合理,林分单一等问题加深了该区水资源短缺。通过合理搭配乔灌树种,充分发挥其水土保持效益,对区域水资源持续利用与促进具有现实意义。本研究基于黄土丘陵区人工乔灌纯林:油松(Pinus tabulaeformis)、侧柏(Platycladus orie