【摘 要】
:
自动语音识别是将语音序列转换为文本序列,是实现人机交互的关键技术。当前,随着人工智能的发展,汉语、英语、日语等主流语言的研究以及语音识别技术已经很成熟。但藏语作为一种少数民族语言,没有大规模的语料库,语言学研究基础薄弱,导致藏语语音识别技术比较落后,实际应用较少。针对藏语语音识别中存在的问题,本文设计并建立了藏语发音词典、语料库、语言模型,重点对藏语语音声学特征的提取以及语音识别模型的构建进行研究
论文部分内容阅读
自动语音识别是将语音序列转换为文本序列,是实现人机交互的关键技术。当前,随着人工智能的发展,汉语、英语、日语等主流语言的研究以及语音识别技术已经很成熟。但藏语作为一种少数民族语言,没有大规模的语料库,语言学研究基础薄弱,导致藏语语音识别技术比较落后,实际应用较少。针对藏语语音识别中存在的问题,本文设计并建立了藏语发音词典、语料库、语言模型,重点对藏语语音声学特征的提取以及语音识别模型的构建进行研究。本文的主要工作和创新点如下:1.设计并建立藏语发音词典、语音识别语料库和语言模型。通过对藏语语言学知识以及藏语音节特点的分析,以藏语拼音的声母和韵母作为识别基元来构建藏语卫藏方言语料库,并建立了藏语发音词典和藏语语言模型。建立的语料库包含18000条数据,总时长达11.26小时,共有说话人20位,其中男性说话人8人,女性说话人12人,发音词典包含16398个词。2.构建混合架构的藏语语音识别模型。提取藏语语音梅尔频率倒谱系数构建隐马尔科夫模型(Hidden Markov Model,HMM)、深度神经网络(Deep Neural Network,DNN)、卷积神经网络(Convolutional Neural Network,CNN)和长短时记忆网络(Long Short-term Memory,LSTM)的藏语语音识别模型,并进行实验验证。结果表明,GMM-HMM、DNN-HMM,CNN-HMM,LSTM-HMM四种模型在相同实验环境下,词错误率分别为35.58%,33.38%,31.61%,25.35%,并以此作为基线模型,与下文建立的基于语谱特征的端到端藏语语音识别模型识别效果进行对比。3.建立基于语谱特征的端到端藏语语音识别模型,并通过数据增强提升模型的识别率和泛化性能。通过快速傅里叶变换将语音转换为语谱图,并使用该特征训练端到端模型。在同样的实验环境下,该模型的词错误率达到34.72%,优于GMM-HMM模型。针对端到端模型在小语料库中识别率低的问题,本文通过加噪对数据进行增强,实验表明,数据增强后模型的词错误率降低6.19%,模型的性能优于DNN-HMM、CNN-HMM模型,且在自然环境中具有更强的泛化性。同时,本文的研究结果优于实验室前人的研究结果。
其他文献
为了改善已有变步长自适应最小均方算法在收敛速度和稳态误差两者之间很难兼得、顾此失彼的不足,本文主要通过研究变步长自适应滤波算法及其应用,给出了提升算法滤波性能的新方法,提出了新的变步长自适应LMS(Variable Step Size Adaptive LMS,以下简称VSSALMS)以及归一化变步长LMS(Normal Variable Step Size Adaptive LMS,以下简称NV
苹果作为我国的最重要的果业产品之一,在人们生活中占有越来越重要的地位。随着人们对苹果品质要求的不断提高以及增大出口的需要,苹果品质的无损检测需求也日益增强。苹果属于电解质的一种,苹果品质的变化可以通过介电特征得到明显反映。本文以苹果内部品质介电参数为研究对象,结合目前已经成熟的理论,基于前期对介电特征和苹果内部品质等方面的相关性研究,设计基于介电特征的苹果内部品质无损检测原型机,实现对苹果介电参数
随着科学技术的不断发展,各种核物理实验所需的实验平台随之建立,实验平台的建立为核物理实验的发展提供了必备条件。随着核物理实验的规模越来越大,应用在核物理实验的探测器也随之快速发展。现在,探测器的种类越来越多,规模越来越大,通道数多而且探测单元密度高。为了更好的采集探测器输出的信号,对连接探测器的读出电子学系统提出了新的需求。本次研究针对新的读出需求,介绍一种具有高集成度、多通道、低功耗、高数据传输
羊奶和牛奶中含有丰富的脂肪、蛋白质、矿物质等营养物质,其种类和含量有一定的差异。羊奶中的营养物质含量较高而且致敏性低、产量低,导致其市场价值也远远高于牛奶。但是二者的物理性质比较接近,仅凭感官很难将二者区分。羊奶和牛奶中的蛋白质都是由酪蛋白和乳清蛋白组成的。酪蛋白主要包括α-酪蛋白、β-酪蛋白、κ-酪蛋白,乳清蛋白包括α-乳白蛋白和β-乳球蛋白、乳铁蛋白和免疫球蛋白等。虽然牛奶和羊奶中均含有这些蛋
香椿是一种香气浓郁且富含营养及功能成分的木本蔬菜。但香椿采摘季节性强,难以保鲜,不能满足消费者的常年需求。发酵食品保质期较长,风味独特,由于发酵条件与发酵方式不同,使得发酵蔬菜中的微生物多样性各异,从而影响发酵食品的感官及营养品质。本文通过分析加盐量4%的香椿泡菜(TSPC4)、加盐量6%的香椿泡菜(TSPC6)、加盐量8%的香椿泡菜(TSPC8)在发酵过程中的理化特性、生物活性、风味特性与微生物
随着激光技术的发展,各种各样的环状激光束相继产生,并逐渐形成一类新型激光束。对于环状激光的传播动力学,人们当前关心的问题主要有两方面,一为环状空心激光束的传播动力学,二为非环状激光束在传播过程中的成环动力学。环状空心激光束是中心光强为零的一种环状激光束,而柱矢量偏振的环状空心激光,特别是径向和角向偏振的环状空心激光束,由于其偏振柱对称性引起了更多的关注。作为环状空心激光束的一种,角向偏振的一阶Be
鲜食核桃营养丰富,口感脆嫩,核桃青皮果实是目前鲜核桃销售的重要形式,但是在贮藏过程中果实易出现褐变和开裂等问题,褐变会影响种仁的口感和营养品质。低温贮藏对延缓果蔬的褐变、衰老等具有积极作用,但有关不同低温贮藏对核桃冷藏及货架果实品质的影响鲜见报道。本试验以核桃果实为材料,采用不同温度(0、2、5、8℃)条件贮藏,测定核桃果实不同部位冷藏期感官品质、抗氧化相关生理指标和核仁品质的差异,及其不同温度冷
森林覆盖变化引起强烈的生物物理反馈进而影响局部气候。地表温度常用于表征造林的局部气候效应。卫星观测的地表温度(Land Surface Temperature,T)和土地覆盖类型或森林覆盖变化数据已被广泛应用于研究造林/砍伐对当地地表温度的影响(ΔT)。以往的分析使用不同的方法来量化造林对地表温度的影响,然而量化结果之间存在较大差异,且导致这种差异的原因尚不明确。自1999年以来中国实施大规模造林
中国鸡蛋产量居世界首位,但深加工能力落后。将鲜鸡蛋预煮凝固、剥皮浸渍加工成卤蛋是增加鲜蛋附加值的有效途径,深受人们喜爱。预煮是卤蛋加工的关键环节,预煮后蛋清蛋黄的凝固程度是影响卤蛋品质的显著因素。目前,通常采用沸水或通蒸汽来预煮鸡蛋,但该法由于加热条件不可控,易造成鸡蛋蛋清蛋黄凝固不均,严重影响了后续卤蛋的加工品质。欧姆加热技术作为一种新兴的食品加工技术,在鸡蛋预煮的应用中具有潜在优势和广泛的应用
果品在采收、运输、加工和储存过程中常因挤压、振动、冲击、碰撞等发生损伤。果品受到机械损伤后,真菌、细菌等会更容易侵蚀损伤部位的果肉,加速果实衰老及腐烂的速度,并进一步感染其他未受损的果品,造成较大的经济损失。现有研究指出近红外光谱和高光谱成像技术可以无损检测内部损伤的果品,但光谱是光子在果品组织内吸收和散射作用的综合反映。不同类型的损伤对果品理化特性和果肉组织的影响不同,而目前尚不清楚不同类型的损